Você está na página 1de 12

Sutherland, Sarah A. Dados Legais e Informações na Prática. Editora Taylor e Francis. (p.

19-32)

Capítulo 2 - Fontes de dados


2.1 Introdução

Existem muitos tipos de dados que podem ser usados para ilustrar a lei, o sistema legal e como as pessoas
interagem com ele, e há tantas fontes para isso. As coleções de leis primárias, como casos judiciais e
legislação, são alguns dos conjuntos de dados mais óbvios a serem usados como dados legais, e fontes
potenciais para eles incluem tribunais, órgãos legislativos, impressoras governamentais e editores,
dependendo da jurisdição. Também pode incluir os dados gerados nas operações de organizações
jurídicas e empresas, como escritórios de advocacia, ministérios da justiça e tribunais. Os dados legais
frequentemente se sobrepõem aos dados utilizados em disciplinas relacionadas como criminologia,
trabalho social e outras ciências sociais. Fontes adequadas para esse tipo de dados podem estar
disponíveis em agências governamentais ou outras fontes, como pesquisadores universitários.

Dito isto, esses dados podem não ser fáceis de acessar. O fornecimento é um dos elementos mais
complicados da integração de dados orientados a insights sobre bolsas e práticas legais. De fato, há
limites significativos para o acesso a documentos privados e públicos para uso como dados em muitos
países, particularmente na legislação primária. Esses limites podem ser frustrantes para aqueles que
querem trabalhar neste espaço, mas as questões associadas ao acesso, notadamente limitações técnicas,
preocupações com privacidade e, às vezes, considerações de propriedade intelectual, podem ser
substanciais. Os direitos de propriedade intelectual na lei primária, por exemplo, são altamente
específicos de jurisdição, e mesmo quando a lei de propriedade intelectual permite o uso dos dados, ele
ainda pode não estar disponível. Muitos governos e tribunais não têm investido no desenvolvimento de
sistemas que apoiem esse tipo de uso.

Além dos limites técnicos e legais, em muitos casos ainda há lacunas substanciais em que conteúdo está
disponível em formatos eletrônicos. Embora possa parecer que os tribunais e os governos
disponibilizariam seus documentos e outros dados para análise, em muitas jurisdições isso simplesmente
não é o caso.

A jurisprudência e outros documentos associados ao julgamento, em particular, podem ser sensíveis, e


correções que podem parecer simples, como a anonimização dos nomes das partes, nem sempre são
praticáveis ou suficientes. Muitos tribunais não têm recursos suficientes para anonimizar julgamentos
antes de serem enviados aos editores, e a anonimização tem limites, especialmente porque pesquisas
de reidentificação mostram que muitas vezes é possível vincular as identidades das pessoas com os
dados sobre eles sem muita dificuldade. Mesmo uma simples leitura de uma decisão pode ser suficiente
para alguém familiarizado com os fatos identificar indivíduos: em pequenas comunidades, em particular,
é difícil garantir que não seja possível identificar partes em litígios (Mobray e Chung 2021). Embora a lei
primária esteja geralmente disponível para uso em pesquisas legais, os reedutos da lei, em particular,
são frequentemente conservadores em fornecê-la em massa a terceiros para usos diferentes daqueles
para os quais foi originalmente fornecido (Winterton 2021).

Algumas fontes de dados estão abertamente disponíveis, enquanto outras estão disponíveis por
assinatura, e algumas são internas para organizações. Cada um deles pode dizer aos pesquisadores coisas
diferentes, e às vezes elas podem ser combinadas para dar insights mais específicos. No entanto, existem
lacunas significativas em quais dados legais estão disponíveis, e pode ser necessário encontrar maneiras
de coletar os dados para preencher uma necessidade em vez de acessar um conjunto de dados existente.

1
Mesmo quando os dados são acessíveis, a maioria dos dados legais é gerada para um propósito
específico, que pode ser o julgamento, a comunicação da lei ou como resultado de atividades como
processos de negócios ou tráfego web. Esses conjuntos de dados podem não ser os melhores dados para
aplicações e análises de condução. Isso significa que grandes organizações como governos, grandes
editoras comerciais e grandes escritórios de advocacia têm vantagens significativas, porque podem criar
seus próprios sistemas de dados e podem projetar como serão coletados e administrados. Muitas
empresas iniciantes que procuram operar no espaço de tecnologia jurídica se concentram no
desenvolvimento de seus algoritmos como prioridade para como avançar e prestar significativamente
menos atenção aos dados que usam para preenchê-lo, o que pode limitar severamente a qualidade de
suas ofertas (Winterton 2021).

Parte do problema é que os dados frequentemente existentes estão incompletos: "Em muitos contextos
jurídicos, não está disponível um resultado como a reincidência: muitas vezes não há melhor indicador
para a decisão certa do que a que foi feita" (Copus, Hübert e Laqueur 2019, 48). Isso significa que não há
dados disponíveis que possam ser usados para treinar aplicativos como sistemas de aprendizagem de
máquina para dar resultados socialmente ideais. Os vieses e injustiças existentes são levados adiante a
esses novos sistemas, e se esse problema não for resolvido, essas questões piorarão à medida que
ferramentas como recomendadores de decisão se tornarem mais difundidas.

Para melhorar essa situação, parece inevitável que a análise e a criação de dados daqui para frente se
tornem mais intimamente integradas aos processos de direito e governança. Será interessante ver como
isso é feito, e o quanto as necessidades de aplicativos baseados em dados conduzirão o desenho de
processos legais, e o quanto isso poderia afetar outros valores que poderiam ditar como eles são
projetados em vez disso.

2.2 Fontes

Existem muitas fontes de dados sobre sistemas jurídicos e resultados. Estes podem ser relativamente
simples, como regulamentos como fonte de compreensão da governança da indústria ou informações
estatísticas sobre processos judiciais. No entanto, mesmo quando os dados estão claramente
relacionados a um determinado tópico, pode ser difícil analisar e analisar. Outras fontes de dados são
menos simples, e pode ser muito difícil saber como encontrar dados que iluminem questões
quantitativas que parecem ter respostas: "medir se um crime ocorreu não é uma questão direta. Requer
contar com eventos de justiça criminal oficialmente registrados, como um relatório de crime, uma prisão,
uma condenação ou um retorno à prisão, nenhum dos quais pode ser proxies consistentes para o
comportamento criminoso. " (Copus, Hübert e Laqueur 2019, 50)

Essas perguntas e outras podem não ter respostas quantitativas disponíveis, e respostas qualitativas dos
participantes do sistema de justiça muitas vezes contêm viés (Salter 2021).

Fornecer dados para encontrar respostas para perguntas pode ser tanto uma questão de criatividade e
discernimento quanto uma questão de lógica e precisão, mas geralmente existem algumas fontes de
dados disponíveis. O que se segue é uma visão geral de muitos dos tipos de fontes de dados que podem
ser acessíveis, com alguma descrição de como esses processos funcionam. Por favor, tenha em mente
que será necessário verificar como as coisas são tratadas localmente antes de comprometer recursos
para um projeto.

2
Governos

Governos de todo o mundo têm disponibilizado mais dados nos últimos anos, especialmente dados
estatísticos. Parte disso são dados abertos, que os pesquisadores podem acessar e usar com restrições
limitadas. Embora alguns tenha mais restrições e possam exigir acordos com agências governamentais,
ou podem não estar disponíveis para os pesquisadores usarem.

Conjuntos de dados abertos

Muitos governos disponibilizam dados com licenças abertas e em formatos propícios para análise e
desenvolvimento. Embora possam não ser tão abertos em relação à licença ou formato como os usuários
potenciais podem desejar, esses conjuntos de dados representam um importante movimento em
direção à abertura e uma melhoria significativa na acessibilidade dos dados sobre o funcionamento do
governo e da sociedade. Por exemplo, o governo do Canadá tem uma política aberta por padrão desde
2016 (Conselho do Tesouro do Canadá Secretariado 2019), e muitos outros governos têm políticas
semelhantes. Os conjuntos de dados abertos mais discutidos há cerca de dez anos foram coisas como
horários municipais de coleta de lixo, mas a complexidade dos dados disponíveis aumentou nos últimos
anos e pode incluir dados sobre o sistema legal e até cópias eletrônicas de leis. Normalmente, qualquer
dado que inclua informações com implicações de privacidade, segurança nacional ou privilégio
advogado-cliente é removido antes da publicação. A jurisprudência normalmente não é disponibilizada
dessa forma.

Órgãos parlamentares

Normalmente, os órgãos parlamentares aprovam leis, que têm nomes como estatutos, atos ou capítulos.
Estas são classificadas como legislação primária. Em alguns sistemas de justiça, esses documentos são
então reunidos em códigos, que dão uma versão consolidada de toda a legislação primária nessa
categoria, como o Código dos Estados Unidos ou o Código Civil Francês. Esta legislação primária dá
direção de alto nível para a governança.

O processo de publicação das leis pode ser consideravelmente mais complicado em algumas jurisdições
do que em outras. Nos Estados Unidos, há uma mistura de leis positivas, que são estatutos que foram
aprovados diretamente pelos órgãos legislativos, e leis não positivas, que são coletâneas codificadas de
leis positivas, mas que não passaram pelo processo legislativo dessa forma. Isso torna mais complicado
saber onde encontrar a lei do que em outras jurisdições, pois ela não é consistente, e muitas pessoas
que precisam de acesso regular a estatutos as mantêm manualmente à medida que são atualizadas (Frug
2021). Esses tipos de irregularidades específicas de jurisdição são considerações importantes ao acessar
a legislação e devem ser investigadas localmente para garantir que sejam feitas suposições corretas
sobre a estrutura dos documentos.

Atos ou capítulos individuais também podem incluir texto que delegar o poder de desenvolver
regulamentos para outras organizações, como agências governamentais, que contêm orientações
detalhadas sobre como a lei será implementada. Isso é referido como legislação secundária. Tanto a
legislação primária quanto a secundária são atualizadas regularmente.

Além desses documentos finais, há também muitos documentos que são criados no processo de
desenvolvimento e aprovação de legislação:

- Proposta de legislação como é lida na casa, normalmente esses documentos estarão em três
versões, sendo a última versão a votada e que se torna lei se for aprovada
- Transcrições dos debates na casa quando a legislação está sendo proposta
- Documentos preparados por ou para comitês formados para fazer recomendações ao governo

3
- Outros documentos, como folhas informacionais preparadas para os legisladores

Dependendo do que os pesquisadores querem saber, esses outros conjuntos de dados podem ser
melhores fontes de informação do que a própria legislação. Textos não estruturados, como debates e
transcrições de comitês, são um registro mais rico do processo de fazer lei do que o texto estruturado
(Eidelman, Kornilova e Argyle 2019).

Muitas jurisdições estão explorando maneiras de disponibilizar a legislação para apoiar a análise e o
desenvolvimento de melhor compreensão e acesso. Isso pode incluir muitas coisas, como melhorar os
padrões de dados de como os dados são publicados e disponibilizá-los como arquivos para download
com menos restrições ao uso. No longo prazo, a legislação pode ser redesenhada para ser mais legível
por máquinas.

Tribunais

Os tribunais são um ramo separado do governo dos órgãos parlamentares. Simplistamente, eles
interpretam e aplicam a lei, incluindo tanto a legislação quanto as decisões judiciais e judiciais, e decidem
como ela será aplicada em instâncias particulares. Sua interpretação é então geralmente publicada na
forma de documentos escritos, que podem ser chamados de julgamentos, casos ou decisões. Estes,
então, tornam-se parte da lei e podem alimentar-se em outros processos judiciais e, com menos
frequência, iniciar mudanças legislativas. À medida que isso acontece, a lei cresce e evolui à medida que
o processo prossegue ao longo do tempo.

Os dados judiciais podem incluir os documentos escritos e enviados por partes litigantes. Estes são
comumente referidos como alegações, listas ou processos judiciais. Também pode incluir dados de
negócios sobre as operações dos tribunais, como dados qualitativos e quantitativos sobre processos
judiciais e experiências dos participantes.

A disponibilidade de dados judiciais é afetada pelas leis locais, vontade organizacional e capacidade
técnica em cada jurisdição. Muitos pesquisadores veem a jurisprudência e as alegações como uma fonte
pronta de documentos que podem ser acessados e usados para análise de dados, mas por muitas razões
eles podem ser uma das fontes de dados mais problemáticas para acessar. Consulte a Tabela 2.1 para
alguns exemplos de dados qualitativos e quantitativos que podem ser usados para entender processos
judiciais.

Tabela 2.1 Dados qualitativos e quantitativos que podem ser coletados sobre processos julgados

Exemplos de dados qualitativos:

- Dados sobre a satisfação do participante


- Feedback passivo
- Botões de classificação
- Caixas de texto onde as pessoas podem pedir ajuda
- Informações coletadas pela equipe da linha de frente

Exemplos de dados quantitativos:

- O número de casos
- Palcos onde as pessoas caem
- Quanto custa os processos
- Taxas de satisfação do participante (Salter 2021)

4
Jurisprudência

Jurisprudência são os documentos escritos reais divulgados pelos tribunais que comunicam suas
decisões. As cobranças da jurisprudência podem ser mais ou menos completas dependendo de muitas
questões que são conduzidas principalmente por decisões tomadas dentro dos tribunais. Os juízes têm
muita discrição na forma como escrevem e emitem suas decisões, e essa variabilidade significa que eles
podem ser bastante difíceis de gerenciar de forma sistemática. Houve pedidos para que as decisões
judiciais fossem mais estruturadas para melhor apoiar a automação, mas essa abordagem não foi
amplamente adotada.

A jurisprudência é uma das fontes de dados mais comuns e controversas. É composto por documentos
públicos, mas pode conter extensas informações sobre as partes envolvidas. Isso limita a publicação de
decisões judiciais como conjuntos de dados para reutilização em muitos lugares. Em alguns países, como
a Áustria, as informações pessoais são removidas dos julgamentos judiciais antes da publicação. Em
outros, não é, o que gerou debate sobre como as informações pessoais de litigantes e testemunhas
podem ser protegidas em um ambiente onde os documentos judiciais geralmente estão disponíveis
online (Bailey e Burkell 2017).

Muitos pesquisadores buscam informações sobre como as disputas são tratadas ou o que acontece com
pessoas em situações específicas, mas há problemas em usá-la para entender a dinâmica da comunidade.
A maioria das pessoas nessas situações não vai a tribunal, e muitos dos que resolvem suas disputas antes
que um juiz emita uma decisão. Normalmente, os casos se resolvem com base em atributos que não são
aleatórios: os assuntos mais simples, incontrou e rotineiros são mais propensos a resolver. Isso significa
que há questões significativas com distribuição e amostragem de dados que precisam ser tratadas antes
que a jurisprudência possa ser amplamente utilizada no desenvolvimento de soluções que tentem dar
insights sobre esses processos.

A jurisprudência é um indicativo de como os juízes decidem no subconjunto de questões que aparecem


diante deles, e que são suficientemente complicadas ou controversas que os litigantes não resolvem
antes de um julgamento ser emitido. Mesmo entre as decisões que são decididas por um juiz, ainda pode
não haver decisões escritas disponíveis: muitas decisões são apenas liberadas oralmente, especialmente
em questões rotineiras, o que significa que o juiz dirá a decisão em voz alta no tribunal. Estas são
frequentemente mantidas como gravações de áudio e só transcritas se alguém estiver disposto a pagar
por uma transcrição privada, e muitas vezes essas gravações não estão prontamente disponíveis ao
público. Isso significa que a obtenção de decisões judiciais como dados requer alguma sofisticação em
relação ao que está sendo solicitado.

Também houve mudanças significativas ao longo do tempo na forma como as decisões judiciais são
decididas e publicadas. Quando a jurisprudência começou a ser publicada online, muitas vezes era
entregue pelos tribunais aos editores em disquetes (Mobray e Chung 2021). Esse legado tecnológico e
de processo não pode ser ignorado, pois a história de como os conjuntos de dados foram compilados
afeta as análises que podem ser feitas com eles. Nos últimos vinte anos, houve uma redução na
proporção de lei que é pública, pois o número de litígios resolvidos fora do tribunal vem aumentando
desde o final do século XX. Os altos custos do litígio significam que as partes resolvem mais
frequentemente disputas usando mecanismos como arbitragem em vez de litígio, o que torna o
resultado um acordo privado, e os detalhes desses acordos geralmente não são tornados públicos. Essa
privatização significa que é difícil para qualquer pessoa acessar dados sobre os resultados das disputas,
exceto para as partes envolvidas (Grady 2018, 20-21).

Existem condições diferentes em cada jurisdição que requerem alguma pesquisa para
entender, mas aqui estão exemplos de alguns detalhes mais para dois lugares. Daniel

5
Hoadley discutiu a dinâmica disso no Reino Unido em 2018, constatando que o acesso
aberto à jurisprudência é limitado pela estrutura do sistema de contratos comerciais para
a produção de transcrições escritas. Muitos acórdãos, mesmo importantes de tribunais
superiores, são emitidos apenas oralmente, e só estão disponíveis de editores comerciais
que pagam para ter acesso às transcrições (Hoadley 2018). Nos Estados Unidos, os
conjuntos de dados existentes disponíveis para decisões de apelação tendem a incluir
apenas decisões escritas, e mesmo quando incluem decisões orais que sob representam
tipos particulares de assuntos como recursos de imigração. Incluir decisões orais em um
conjunto de dados adiciona complexidade significativa ao processo de aquisição de dados
(Carlson, Livermore e Rockmore 2020, 225), mas pode ser necessário obter bons
resultados.

Autos de Processos

Petições, recursos e similares são documentos que são apresentados ao tribunal como parte do processo
judicial. Eles estão disponíveis para uma seleção mais ampla de casos do que julgamentos porque quase
tudo o que tem qualquer litígio associado a ele terá algo arquivado junto aos tribunais, mas por muitas
razões a maioria desses assuntos não acabará tendo uma decisão por escrito associada a eles. Há muitas
razões pelas quais as questões podem ser representadas em instâncias judiciais, mas não julgamentos:

- As partes podem ter chegado a um acordo privado


- O caso poderia ter sido arquivado.
- Uma das partes poderia ter perdido um prazo de limitação

Além disso, nem sempre é possível conhecer os resultados associados às pautas: se um caso for resolvido
entre as partes ou for simplesmente descartado, pode não haver indicação detalhada do resultado nos
registros judiciais.

As listas de dados representam uma fonte de dados mais detalhada para análise do que a jurisprudência,
mas como conjuntos de dados, elas ainda têm limitações técnicas significativas, além das limitações de
processo discutidas acima. Em muitas jurisdições eles podem não estar disponíveis eletronicamente.
Nesse caso, embora eles geralmente sejam oficialmente públicos, o fato de não ser possível acessá-los
sem ir fisicamente a um tribunal e solicitar acesso a um arquivo em papel é um impedimento significativo
para seu uso. Mesmo onde eles estão disponíveis eletronicamente, é comum que eles só estejam
disponíveis como PDFs digitalizados. Isso os torna quase tão inacessíveis quanto arquivos em papel para
fins de análise.

Processos e informações de negócio

Processos e informações de negócio em organizações como escritórios de advocacia, agências


governamentais e organizações sem fins lucrativos são algumas das fontes de dados mais valiosas em
qualquer organização, mas em muitos casos não houve uma boa infraestrutura técnica que permitiria
que esses dados fossem extraídos e analisados. Nos últimos anos, novos softwares de gestão de práticas
jurídicas estão sendo desenvolvidos e adotados, o que facilita muito o uso desse dado. Outras
organizações jurídicas, como os ministérios da Justiça, também estão melhorando seu acesso aos seus
próprios dados e se movendo em direção a ele pode prever que muitos terão mais abordagens baseadas
em dados para a tomada de decisões.

6
À medida que esses sistemas se tornam mais amplamente disponíveis e integrados às operações, esta
será uma nova fonte substancial de geração de valor para as organizações jurídicas, pois permitirá que
eles entendam melhor suas operações e tomem decisões baseadas em evidências. Isso é importante
porque entender a própria organização e como ela opera pode ser um dos maiores pontos cegos para
qualquer organização. Os principais geradores de valor nesta organização não são sistemas tecnológicos,
mas esforços e insights das pessoas. Entender essas pessoas e o valor que elas geram individualmente e
em grupos é um elemento importante da gestão baseada em dados.

Escritórios de advocacia e departamentos jurídicos estão sentados em pilhas de dados de empresas e


clientes. No entanto, geralmente não é estruturado, espalhado por vários lugares, e muitas vezes as
pessoas não sabem onde está. Dito isso, uma vez que as empresas percebem quantos dados existem e
quão valiosos podem ser, parece inevitável que eles comecem a usá-los para validar as decisões de
negócios. Um exemplo de uma grande fonte de dados valiosos que é exclusiva de uma determinada
empresa são os dados associados a acordos e negócios que nunca são tornados públicos. Os julgamentos
judiciais são geralmente bastante bem estruturados e as pessoas estão acostumadas a usá-los, mas os
dados internos podem ser uma vantagem competitiva real porque não estão disponíveis publicamente
(Hodgins 2021).

Existem muitas maneiras potenciais de os dados serem usados para desenvolver valor para as
organizações, por exemplo, um escritório de advocacia poderia olhar para a expertise interna, pegando
todos os contratos de depósitos de valores mobiliários preparados pelos membros das empresas e
avaliando as habilidades reais das pessoas com base no que eles fizeram e em sua qualidade (Jayasuriya
2018, 195). Para uma empresa menor, pode fazer mais sentido fazer algo assim manualmente, pois um
processo de big data pode não ser eficiente para um conjunto de dados menor, mas a técnica importa
menos do que procurar maneiras de validar ou invalidar suposições. O importante é considerar o que faz
sentido em uma determinada organização.

É vital fazer um plano de como os dados serão gerenciados. Em um escritório de advocacia isso deve
incluir o planejamento de coletar e usar dados para entender o seguinte:

- Entradas do cliente
- Insumos não ciclistas
- Entradas públicas
- Dados criados
- Saídas públicas
- Saídas não ciclistas
- Saídas de clientes (Grady 2018, 24)

O aumento dos dados disponíveis publicamente combinado com o melhor acesso aos dados de negócios
disponibilizados por meio de software aprimorado e boas práticas de criação de dados significa que
mesmo pequenas organizações e profissionais individuais podem desenvolver ferramentas de dados
sofisticadas se isso for algo que eles querem investir na construção (Grady 2018, 24).

Faturamento

Uma das discussões mais comuns sobre como os escritórios de advocacia fazem negócios tem sido na
área de faturamento. O uso do faturamento por hora cria desincentivos para desenvolver formas
eficientes de trabalho, e muitos clientes querem melhores informações sobre quanto um assunto vai
custar quando um advogado é contratado. Em muitos casos, os advogados têm hesitado em dar citações
firmes porque veem muita variabilidade no tempo que o tratamento de assuntos individuais leva. Uma

7
melhor coleta e análise de dados permite uma maior certeza sobre como responder a essas perguntas
com confiança.

Para obter os dados necessários de forma contínua e dinâmica é necessário:

- Um método de coleta, como um sistema de software adequado


- Um plano para quais dados são necessários para entender o que a gestão quer saber
- Uma estratégia de como treinar membros da empresa sobre como registrar os dados
adequadamente

Também seria possível reunir esses dados manualmente para uma pequena empresa, mas isso é
trabalhoso e os resultados provavelmente não seriam atualizados tão regularmente quanto em um
processo automatizado.

A coleta desse dado é trabalhosa, por isso é essencial ter um plano para avaliar como usá-los e como
comunicar sua importância antes que o investimento seja feito para recolhê-los. Tenha em mente que
os dados de faturamento já são coletados como parte dos processos de negócios regulares das empresas,
de modo que o comportamento necessário não deve ser tão diferente para os membros da empresa
como pode ser para pessoas que trabalham em diferentes indústrias que podem ter que começar a
registrar o tempo. Isso significa que o investimento incremental necessário para começar a coletar dados
estrategicamente é menor para os escritórios de advocacia do que seria para muitos outros tipos de
empresas, de modo que o equilíbrio de benefícios para os custos é maior.

Esses dados podem ajudar um escritório de advocacia a responder perguntas além de pensar em termos
de como faturar clientes de forma mais eficiente. Ele pode ajudar a responder perguntas como quais
áreas de prática são mais rentáveis, quem está anotando mais tempo e que tipos de clientes e áreas de
prática são mais propensos a ter maior valor a longo prazo.

Logs de websites

Uma das fontes mais comuns de acesso das organizações de dados são os registros web. A maioria das
organizações tem sites, e eles são frequentemente uma das ferramentas de marketing mais importantes
dessas organizações. Isso significa que, independentemente da organização, é provável que seja possível
melhorar os resultados com base no desempenho do site.

O uso de estatísticas de sites deve ir além de métricas simples, como o número de visitas ao site, pois
estes servem principalmente ao propósito de fornecer um número facilmente comparável que as
pessoas entendam. Muitas vezes são chamadas de métricas de vaidade. Em vez disso, estratégias sobre
o que as organizações querem alcançar e como o site é usado como uma sugestão para o que pode ser
melhorado. Aqui estão alguns exemplos de maneiras de direcionar metas que poderiam ser melhoradas
com alterações no site de uma organizaçõ:

- Acompanhe o percentual de visitantes ao site que navegam até a página de contato conosco
como uma maneira de avaliar a probabilidade de eles quererem seguir um relacionamento de
trabalho

- Acompanhe o número de pessoas que vão para a página de contato em comparação com
quantas chamadas e e-mails chegam para entender como os clientes em potencial querem se
comunicar

8
- Acompanhe o comportamento de visitantes de diferentes faixas de IP associadas a determinados
grupos, como explorar como visitantes de faculdades de direito interagem com o site para
entender melhor temas como dinâmica de contratação

- Veja as organizações que representam os principais visitantes do seu site para procurar clientes
ou colaboradores em potencial

Os registros de websites são algumas das fontes de dados mais fáceis de começar porque quase todas as
organizações as têm. Iniciar um programa de dados usando dados que já existem é mais fácil e dá o
potencial de vitórias precoces que podem ajudar uma organização a decidir se mais análise de dados
seria útil e se alguém internamente tem, ou está interessado em desenvolver, a expertise para fazer um
programa como este funcionar.

Editoras jurídicas e provedores de dados

As editoras jurídicas têm demorado a fornecer acesso aos dados como parte de suas ofertas de produtos,
mas isso está mudando. Os dados publicados podem ser suficientes para fornecer o que é necessário
para um projeto em si, mas também podem complementar o processo de negócios e dados
governamentais para permitir análises mais complexas. As editoras podem estar mais abertos a fornecer
acesso aos dados a pesquisadores acadêmicos do que outros, mas eles têm sido resistentes a fornecer
acesso a suas coleções completas para análise.

As editoras têm sido grandes inovadores no campo de trazer aplicativos baseados em dados para o setor
jurídico, integrando-os em seus produtos (veja-se, nesse sentido, as edtechs e legaltechs). Alguns deles,
como geradores breves orientados por inteligência artificial, são guiados por ferramentas baseadas em
dados. Outros são menos obviamente orientados por dados, como quando as editoras integram
metodologias baseadas em dados em seus processos internos de trabalho para substituir o trabalho dos
editores humanos. O aprendizado de máquina ainda torna possível que os editores capturem o
comportamento dos usuários para contribuir com a funcionalidade de seus sites: cada vez que uma
pesquisa é executada e um resultado específico clicado nele poderia ser usado para melhorar os
resultados de pesquisa e a capacidade de resposta do site (Nayyer 2021).

Muitas editoras também fornecem ferramentas como plataformas de análise de dados, que permitem
aos pesquisadores integrar insights da análise de dados em suas tomadas de decisão, especialmente no
processo de litígio. Com o tempo, isso pode se tornar mais popular, pois permitirá que os editores
forneçam acesso aos insights que as pessoas desejam sem expor suas coletas completas de dados.
Algumas editoras jurídicas começaram a fornecer conjuntos de dados por assinatura, e esta pode ser
uma maneira comum de adquirir acesso no futuro.

2.3 Desenvolvimento de dados

Quando os dados não estão disponíveis para uma determinada necessidade, muitas vezes ainda é
possível desenvolver ou encontrar dados que permitam que um projeto avance. Existem muitas maneiras
de fazer isso, seja desenvolvendo sistemas que coletam dados ou criando-os manualmente. Duas
maneiras importantes de encontrar pontos de dados para tópicos que não possuem fontes claras são
através de experimentos e encontrando proxies, ou pontos de dados que estão correlacionados com o
que deve ser medido quando não é possível medir a coisa em si.

9
Metodologia experimental

Até agora, as fontes de dados listadas neste capítulo são para dados existentes decorrentes de processos
e documentos que já estão acontecendo ou que já estão sendo criados. Pensando além dos dados
existentes, também é possível projetar experimentos para desenvolver dados que não existem para
entender eventos e processados que ainda não aconteceram. Isso permite que os pesquisadores
entendam possíveis desfechos em condições particulares, a fim de informar a tomada de decisões.
Métodos experimentais permitem uma melhor compreensão da causalidade — desde que os
pesquisadores estejam constrangidos a explorar coisas que aconteceram, eles só podem identificar com
confiança a correlação. Para identificar causalidade, eles precisam saber qual seria o resultado se algo
diferente tivesse acontecido. É aqui que um bom design experimental é crucial.

O design experimental em direito pode começar com a identificação de técnicas usadas em outras
disciplinas e a exploração de novas formas para que sejam usadas. Também pode exigir que os
tomadores de decisão convincentes permitam a atribuição aleatória de categorias entre um grupo
experimental. No entanto, há barreiras significativas à experimentação como forma de coletar
informações sobre os seres humanos em geral (Luca e Bazerman 2020, 64), e em lei particularmente
(Lynch, Greiner e Cohen 2020). Jim Greiner, do Harvard Access to Justice Lab, descobriu que no direito
há uma forte "dependência da experiência pessoal e da falta de abertura ao processo científico" no setor
jurídico (Neal 2020).

Um elemento importante para resolver objeções aos testes randomizados é explicar por que os
experimentos são necessários em vez de simplesmente implementar as melhores práticas para todos. A
resposta é que muitas vezes não está claro quais são as melhores práticas. Em contrapartida, considere
que, no sistema atual, mudanças não testadas são feitas na lei para toda a população (Lynch, Greiner e
Cohen 2020). Haverá limites para o desenvolvimento da compreensão baseada em evidências do sistema
jurídico e da política até que os métodos experimentais sejam mais amplamente adotados.

Dados proxy (ou dados-parâmetro)

Uma das primeiras coisas a considerar ao desenvolver uma estratégia de dados é que muitas vezes os
dados para medir algo diretamente não estão disponíveis, por isso pode ser necessário encontrar pontos
de dados-parâmetro correlacionados com o que deve ser medido em vez disso. Dados-parâmetro são
dados sobre algo que pode ser mais facilmente medido, e que flutua, ou está correlacionado, com a coisa
que não pode ser medida diretamente.

Um dos tipos mais comuns de dados-parâmetro (ou dados proxy) usados em


escritórios de advocacia é o registro de horas faturadas como forma de medir a
produtividade dos advogados: horas faturadas não são o que torna a contribuição de
um advogado para uma empresa valiosa. Eles não estão diretamente ligados à
rentabilidade porque só o tempo que é cobrado e pago gera receita. Contribuições
reais não são fáceis de contar, pois a contribuição de cada advogado é combinada em
uma única conta. Algumas vezes um advogado trabalhou pode ser descartado e
algumas contas podem não ser pagas, o que não está sob o controle de um advogado
em particular. As horas faturadas são ainda mais remotas do valor entregue a um
cliente, pois essa é principalmente uma função da qualidade das informações
recebidas e do processo seguido. Essas coisas não são fáceis de medir, mas o número
de horas trabalhadas é, de modo que é usado como medida de contribuição.

O problema com o uso de dados proxy é que eles frequentemente criam incentivos para se concentrar
na maximização do proxy em vez do valor subjacente. Por exemplo, em um ambiente onde a métrica

10
primária para avaliações de desempenho para a equipe de tecnologia da informação é o número de
bilhetes de help desk resolvidos, eles podem ser incentivados a criar um grande número de bilhetes
frívolos que podem ser resolvidos rapidamente em detrimento de fazer um trabalho mais valioso. Uma
vez incentivadas a fazê-lo, as pessoas podem fazer mudanças significativas em seu comportamento, o
que pode reduzir o valor do proxy removendo o link com o valor subjacente a ser medido.

É importante entender quando um proxy está sendo usado e como isso afeta os resultados. Por exemplo,
no aprendizado de máquina é possível extrair informações sobre quais variáveis são mais preditivas de
recomendações específicas. No entanto, só porque uma variável é a medida mais preditiva de uma
medida desejada em uma aplicação de aprendizado de máquina não significa que seja um proxy
adequado (Copus, Hübert e Laqueur 2019, 56). É aí que é útil considerar cuidadosamente a relação entre
os dados correlacionados e a causalidade.

2.4 Estratégia

O desenvolvimento de uma estratégia de dados é necessário para que o esforço e o investimento não
sejam desperdiçados. É fácil começar a coletar grandes quantidades de dados de fontes disponíveis sem
saber o que será feito com ele, mas essas iniciativas muitas vezes são um uso equivocado dos recursos.
Questões como a coleta e como lidar com dados que não foram adequadamente examinados para
questões como privacidade ou confidencialidade do cliente devem ser consideradas no início do
processo: Cory Doctorow chegou ao ponto de chamar os dados dos clientes de "resíduos tóxicos" para
os problemas de segurança que podem implicar (Doctorow 2020). Os escritórios de advocacia, em
particular, são geralmente sofisticados sobre a gestão da confidencialidade do cliente, e essas
preocupações devem ser tratadas quando novos projetos são desenvolvidos e não como pensamentos
posteriores. Existem custos significativos associados à geração manual de dados, e é imprescindível que
o plano de projeto e uso futuro seja cuidadosamente considerado antes de um projeto que exija esse
tipo de esforço ser iniciado.

Diferentes tipos de dados provenientes de múltiplas fontes são adequados para aplicações específicas.
Aqui estão algumas maneiras de planejar e gerenciar a coleta de dados:

- Geração manual de dados


- Delimitação do assunto
- Crowdsourcing
- Geração de usuários
- Conjuntos de dados disponíveis publicamente
- Licenciamento de dados de terceiros
- Colaboração com uma organização que já possui dados
- Aquisições de empresas (Mueller-Freitag 2016)

Nem todas essas opções serão adequadas para todas as situações, mas pensar criativamente sobre como
os dados podem ser adquiridos permitirá aplicações mais sofisticadas.

Uma consideração estratégica importante é quem gerenciará um programa de dados. Pesquisas que
analisam essa questão descobriram que é um erro pedir a um departamento de TI para gerenciar uma
equipe baseada em dados. As equipes de TI geralmente são boas no desenvolvimento de sistemas para
armazenar dados e protegê-los, mas eles não tendem a se destacar em transformá-los em valor de
negócios. (Jayasuriya 2018, 192-93).

11
2.5 Conclusão

Existem muitas fontes possíveis de dados. Os dados prontos têm a vantagem de serem menos caros,
enquanto os dados personalizados são mais favoráveis a comunicar exatamente o que é desejado. As
duas principais fontes emergentes de dados são o aumento da publicação governamental de seus dados
e a criação de dados usando métodos experimentais. Com os dados do governo, será necessário ter
vontade política para torná-los disponíveis e resolver problemas como acordos existentes com editores
que limitam a distribuição e resolvem preocupações de privacidade. A adoção de métodos experimentais
em contraste é algo que está dentro da capacidade de estudiosos e profissionais jurídicos corrigirem.
Olhando para o futuro, certamente haverá novas fontes de dados se tornando disponíveis, bem como
tecnologias emergentes que tornarão novas metodologias possíveis. O próximo capítulo fornecerá mais
detalhes sobre que tipos de dados podem ser obtidos a partir dessas fontes.

12

Você também pode gostar