Você está na página 1de 10

NOTA: Todas as informações fornecidas neste documento são confidenciais.

Qualquer publicação, disponibilização ou disseminação deste conteúdo é


estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

Diretrizes de Anotação
Diretrizes gerais
Esta tarefa requer que você ouça os arquivos de áudio e classifique-os
usando as 'labels' abaixo. Você não precisa digitar o que o orador diz.
Isso é feito depois. 

Por favor, leia atentamente as diretrizes abaixo, e se alguma coisa não


estiver clara, entre em contacto com o seu supervisor.

Uso das labels


O objetivo desta tarefa é identifiar ficheiros que tenham fala inteligível de
falantes nativos de Portugal que valham a pena transcrever.

Queremos apenas áudio de português de Portugal. Queremos minimizar a


quantidade de fala que não é português de Portugal para que esses ficheiros
de sotaques de fora ou outras línguas sejam marcados como estrangeiro ou
other_portuguese.

Se o ficheiro pode ser transcrito ouve outra vez para verificar se contém
informação pessoal (ver UII mais à frente), se não adiciona [transcripiton] o
rótulo e prossegue.

Certifica-te de ouvir a fala toda para o caso de ser preciso marcar algo como
UII.

Por favor, usa headphones quando trabalhares nesta tarefa. Isto vai
garantir que ouças tudo com mais clareza. Define um volume confortável
(80%) para não estar muito alto e poder magoar os ouvidos mas não
demasiado baixo para não perderes sons ou fala importante.
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

Lista de labels
Tecla
label de Razão
Atalho
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

other-portuguese
o áudio contém mais de 10% de fala
portuguesa que não é de Portugal com
sotaque inglês.
Por exemplo usa o rótulo other-
portuguese se em alguma parte
(mais de 10%) do áudio o falante
falar com sotaque brasileiro ou
africano.

Exemplo 1 (Brasileiro)

Exemplo 2 (Africano)

other-portuguese o
other-portuguese e utx-foreign devem
ser priorizados sobre os outros
rótulos.
Se tiveres dúvidas sobre qual dos dois
usares numa situação, escolhe o que
for mais dominante.

Se você descobrir que o áudio não


está no português desejado e você
conhece o sotaque (por exemplo,
Brasileiro), coloque-o na caixa de
texto. Se você não tiver certeza do
sotaque ou estiver selecionando um
rótulo diferente, não edite a caixa de
texto.
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

Não consegues entender o áudio -


língua estrangeira
Pelo menos 10% do áudio contém fala
numa língua diferente do português.
Por exemplo, se um minuto está em
português e um minuto em espanhol,
seleciona o rótulo utx-foreign.
f
Se o falante usar algumas palavras
utx-foreign
estrangeiras com regularidade
durante o áudio podes transcrever.

other-portuguese e utx-foreign devem


ser priorizados sobre os outros
rótulos.
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

Transcription
A maior parte do áudio contém
português de Portugal que pode ser
transcrito. Isto inclui pessoas a falare
palavras ditas pela televisão ou rádio.

⚠️Se mais de 10% do áudio


contém língua estrangeira ou
português que não seja de
Portugal, por favor usa utx-
foreign ou other-portuguese (ver
atrás).

t Usa o rótulo transcription se a fala e o


tempo de áudio sem fala for mais ou
transcription menos o mesmo e o áudio não
contém fala estrangeira.
Exemplos:
● 50% silêncio + 50% português
de Portugal = Transcription.
● 50% silêncio + 40% português
de Portugal + 10% português
do Brasil = other-portuguese
⚠️ Por favor, usa isto mesmo que a
fala seja num ambiente barulhento
mas que consigas entender a maior
parte da fala com clareza.
u UII (User-Identifiable
Information)
UII (Informações que identificam
uii o utilizador)

Por privacidade, não podemos


transcrever arquivos que contenham
informações que identificam o
utilizador (UII). UII inclui coisas
como nomes completos, nomes de
utilizador, gamertags, endereços,
números de telefone, números de
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

cartão de crédito, números de


segurança social, etc. Se houver UII
em qualquer parte do áudio, selecione
esta label.

Existem exceções. Não precisa marcar


UII se:

● É um serviço noticioso, série de


TV, programa de TV ou Rádio
● É claramente uma promoção
comercial (por exemplo, um
anúncio) sem pretensão de
privacidade
● O nome completo é de uma
figura pública conhecida (por
favor, investigue mais,
pesquisando o nome no Google,
se não tiver certeza se o nome
completo é ou não uma figura
pública conhecida)

/!\ Por favor, tenha cuidado, nomes


completos mencionados em
lotarias/sorteios devem sempre ser
marcados como UII.

Se não tiver certeza, é melhor usar


UII.
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

Sem sons humanos - A maior


parte do áudio não contém
qualquer som humano (ex: falar,
cantar, chorar, rir).

n A maior parte do áudio contém


apenas sons de objetos inanimados ou
no human animais (por exemplo, carros a
buzinar, cães a ladrar) ou música sem
letra. Não contém sons humanos
como falar, cantar, chorar ou rir.

Canto

A maior parte do áudio contém


apenas canto humano, incluindo rap,
entoação de mantras, recitação de
poesia, palavras faladas de uma
s maneira melodiosa, ou sermões
sagrados ritualísticos. Música de fundo
singing
com letra é considerada como canto.

Se o áudio contém apenas alguém a


cantar numa língua estrangeira, por
favor usa o rótulo singing.
h Sem Discurso - Não contém
alguém a falar ou a cantar

human A maior parte do áudio contém sons


humanos como chorar ou rir, mas não
contém nenhuma forma de discurso
humano (palavras) como falar ou
cantar.  Note que, se o clipe de áudio
contiver discurso, mas ele estiver
apenas numa pequena parte do áudio,
a label 'human' deve ainda ser
aplicada. Use a label se o vídeo
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

contiver apenas discurso de fundo


distante.
Corrompido

A maior parte do áudio tem estática


c
ou é aumentado/distorcido
corrupted mecanicamente de forma que não soa
como voz humana.
Não compreensível – Ruído

A maior parte do áudio não é


transcrevível porque há ruído alto que
abafa qualquer discurso. O ruído pode
incluir conversas cruzadas de vários
oradores, gritos, aplausos, muito
y
ruído de fundo, etc.
utx-noisy Apenas use esta label se o discurso
estiver sobreposto ou se o discurso
não puder ser compreendido por
causa do ruído. (Mantenha os seus
auscultadores num volume
confortável.)

Não compreensível – Sotaque

A maior parte do áudio contém


discurso com um forte sotaque ou
dialeto que torna o discurso
e
ininteligível. Se o clipe de áudio é com
utx-accent sotaque, mas ainda é inteligível, ele
deverá ser transcrito.
Use esta label para discurso que não
seria inteligível para um falante médio
da português.
   x
Explícito

Use esta label se o áudio contiver


NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

conteúdo explícito/gráfico, como


explicit pornografia, violência extrema ou
discurso de ódio. Observe que uma
gravação contendo apenas uma
linguagem incorreta (i.e., sem
violência/perseguição/discurso de
ódio) não deve ser considerada como
contendo conteúdo explícito.

Se considerares um ficheiro de áudio


explícito seleciona a categoria a que
melhor se adequa o tipo de linguagem
usada no mesmo através da lista
"Explicit":

sexualmente explícito;

violência;

assédio/ameaças;

suicídio ou auto ferimentos;

discurso de ódio;

terrorismo;

blasfémia;

outro.

NOTAS EXTRAS:

Ficheiros sexualmente explícitos são


ficheiros que contêm pornografia, uma
descrição muito bruta e "crua" ou
discussão do ato sexual em si.
Sugestão de sexo ou conversa sobre
sexualidade não é considerado
NOTA: Todas as informações fornecidas neste documento são confidenciais.
Qualquer publicação, disponibilização ou disseminação deste conteúdo é
estritamente proibida. Não compartilhe ou publique o conteúdo na Internet.

conteúdo explícito.

Discursos de ódio refere-se ao


discurso público que expressa ódio ou
encoraja violência para um certo
indivíduo ou grupo baseado na raça,
religião, género ou orientação sexual.

Blasfémia pode não ser considerado


explícito/ofensivo em algumas
culturas por isso usa o teu melhor
julgamento tendo em conta o contexto
em que te encontras.

/!\ Atenção, por favor. Ficheiros


explícitos são raros e esta etiqueta só
deve ser usada em casos extremos!

Você também pode gostar