Você está na página 1de 43

strutura e conteúdos do curso

 Marcar esta página como favorita

O curso é composto por 6 Módulos, com 30 horas de estudo


individual durante 6 semanas.
Formato de conteúdos: Texto, vídeos, esquemas licenciados com CC-BY.

Atividades: Leitura dos conteúdos textuais, visualização dos vídeos e resposta


aos questionários. 

O que são dados de investigação


 Marcar esta página como favorita
Considera-se dados de investigação todos e quaisquer dados que sejam
produto direto ou indireto do processo de investigação científica, e por isso
necessários para a validação de resultados científicos.

Podem ser considerados dados de investigação:

o Dados em bruto: aqueles que são capturados através de


instrumentos e sensores, como telescópios, smartphones e satélites.

o Visualizações, modelos e algoritmos: os investigadores


também produzem recursos digitais tais como modelos e algoritmos
para os auxiliar a analisar, visualizar e apresentar dados em bruto de
forma significativa.

o Imagens, áudio e ficheiros de vídeo: imagens digitais


também são consideradas como dados, assim como quaisquer
ficheiros de vídeo ou áudio capturados no decorrer de uma 
investigação, tais como as entrevistas gravadas.

o Qualquer coisa! essencialmente, dados de investigação


pode ser tudo aquilo que os investigadores produzam ou trabalhem
durante o decurso da sua investigação.
Diferentes tipologias de dados

Marcar esta página como favorita

Podemos distinguir os tipos de dados,

a) de acordo com o seu grau de processamento:


Em bruto: dados de investigação obtidos diretamente do processo de investigação,
instrumento ou metodologia científica, sem que tenham sofrido qualquer processamento ou
transformação (p. ex.: entrevista áudio/vídeo sem edição, dados gerados por um instrumento
de medição sem que tenham sofrido processamento).

Processados: dados resultantes da interpretação, processamento ou transformação de dados


em bruto (p. ex.: entrevista áudio/vídeo após edição, dados gerados por um instrumento de
medição após processamento ou aplicação de modelos estatísticos).

Nota: É importante notar que a distinção entre dados em bruto ou processados, ainda que
possa ser útil, não é livre de ambiguidades, pois diferentes disciplinas poderão ter noções
diferentes acerca de um mesmo conjunto de dados.

b) de acordo com a proveniência (do ponto de vista do investigador):

Primários: dados gerados pelo próprio, no decorrer da sua investigação;

Secundários: dados disponíveis (abertos), reutilizados por outros que não os seus produtores.
Estes dados, para serem usados, necessitam de ter documentação de contextualização
associada.

c) de acordo com a sua dimensão:

Big data: dados (datasets) de grande dimensão, muitas vezes provenientes de instrumentos
específicos;

Long tail data: datasets de pequenas dimensões. Dada a sua natureza heterogénea,
constituem um maior desafio em termos de planeamento, gestão, preservação e reutilização,
devido à sua natureza heterogénea e singular.

d) de acordo com o tipo de investigação desenvolvida:

Dados de observação: capturados em tempo real, geralmente únicos e insubstituíveis (p. ex.:
imagens cerebrais, dados de inquéritos);
Dados experimentais: recolhidos a partir de equipamentos de laboratório, podendo ser
reprodutíveis (p. ex.: cromatogramas, micro-ensaios);

Dados de simulação: gerados a partir de modelos de teste, onde os modelos e metadados


podem ser mais importantes do que os dados resultantes do modelo (p. ex.: modelos
económicos e climáticos);

Dados derivados ou compilados: resultam do processamento ou de combinação de dados em


bruto, podendo ser reprodutíveis;

Dados de referência ou canónicos (estáticos ou orgânicos): coleções de pequenos conjuntos de


dados (revistos por pares), podendo ser publicados e curados (p. ex.: banco de dados de
genes).

O que são Dados?

Marcar esta página como favorita

Neste vídeo (em língua inglesa) diferentes especialistas de informação, professores e


investigadores de Instituições de investigação norte-americanas dão a sua visão do que
consideram ser dados e como os definem (vídeo produzido no âmbito do projeto CRADLE
(Curating Research Assets and Data using Lifecycle Education) do Odum Institute (University of
North Carolina)).

O ciclo de vida dos dados e o ciclo de vida da investigação

Marcar esta página como favorita

Em seguida, analisamos em detalhe o ciclo de vida dos dados integrado no processo de


investigação (ciclo de vida da investigação), a partir da representação de dois esquemas que
ilustram a integração das etapas associadas à gestão de dados no processo de investigação
científica.

Um ciclo de gestão de dados de investigação procura integrar os conceitos e os momentos-


chave no planeamento e implementação de ações relacionadas com a gestão de dados de
investigação. Esses conceitos e ações variam necessariamente consoante a disciplina e o tipo
de dados produzidos, entre outros fatores.

Ciclos de Dados de Investigação


Apresentamos em seguida um exemplo de ciclo de dados de investigação da Universidade da
Califórnia (http://www.lib.uci.edu/dss), onde é focado o planeamento, a implementação,
disseminação, descoberta, preservação e, finalmente, a reutilização do output produzido.

Ciclo de Investigação Científica

1) Planeamento

- Identificar bolsas e financiamento

- Recolher e definir requisitos iniciais

- Descrever e organizar tarefas

2) Implementação

- Recolher dados

- Organizar dados

- Descrever dados

- Analisar dados

3) Disseminação

- Identificar publicações em acesso aberto

- Depositar trabalho

- Partilhar e citar recursos

4) Descoberta e impacto

- Entender métricas

- Usar redes sociais

4) Preservação

- Migração para formatos abertos


- Armazenamento de dados

5) Reutilização dos dados

No esquema seguinte, a Universidade de Queensland


(http://guides.library.uq.edu.au/research-data-management) apresenta uma visão generalista
e global do processo de gestão de dados, com o ciclo de vida de dados de investigação acima
apresentado, focando-se nas fases de recolha, processamento, análise, preservação,
descoberta e reutilização.

ciclo

Sintetizando, os ciclos de dados apresentam várias etapas, nas quais estão incluídos diferentes
processos, mas que podem ser agrupados em três fases distintas neste modo de integração
entre o ciclo dos dados e ciclo da investigação: fases de Planeamento, Produção e
Disseminação.

Fase de Planeamento

Na Fase de Planeamento dever-se-ão fazer as primeiras reflexões quanto à produção,


preservação e partilha de dados de investigação, idealmente formalizadas num documento
para o efeito, denominado de Plano de Gestão de Dados. Frequentemente, a submissão de um
PGD constitui um requisito de financiadores de ciência, aquando da submissão de projeto e
concurso a financiamento.

Fase de Produção

Após o início do Projeto e dos trabalhos de investigação são criados os primeiros dados no
âmbito desse mesmo projeto. Nesta fase ocorrem todos os procedimentos e transformações
aos dados, para que possam ser posteriormente publicados, passando deste modo do domínio
restrito ao domínio público.

Fase de Disseminação
É após publicação dos dados que estes podem finalmente ser acedidos e reutilizados, gerando
eventualmente, novos dados de investigação, e dando novamente reinício ao ciclo de dados.

A reutilização de dados é o objetivo final e central da implementação de estratégias de gestão


e preservação de dados, constituindo o colmatar do ciclo e do processo que gera em si, o valor
acrescentado aos dados de investigação produzidos (no domínio restrito).

É importante notar que podem existir casos, em que os dados produzidos são imediatamente
publicados, ou seja, de modo em que o momento da produção seja coincidente com o
momento da disseminação. No entanto, tal só deverá acontecer após a reflexão cuidada dos
passos apresentados nas fases distintas, pelo que não é considerada boa prática a
disseminação sem que tenham existido previamente medidas concretas de curadoria e gestão.

A importância das boas práticas de gestão de dados de investigação

Marcar esta página como favorita

Uma boa gestão de dados é a base para uma investigação bem sucedida. A gestão eficiente ao
longo do ciclo de vida dos dados é muito importante para o sucesso dos projetos de
investigação ou de estudos pós-graduados.

Os benefícios da gestão de dados são:

Cumprir os requisitos do financiador;

Assegurar a integridade e reprodutibilidade da investigação;

Aumentar a eficiência da investigação;

Assegurar que os dados e registos de investigação são precisos, completos, autênticos e


confiáveis;

Economizar tempo e recursos a longo prazo;

Aprimorar a segurança dos dados e minimizar o risco da perda de dados;

Prevenir a duplicação de esforços, permitindo que outros utilizem os seus dados;

Cumprir com as práticas conduzidas na indústria e comércio;

Possibilitar a comparação dos dados nos vários momentos do ciclo de investigação.


Estratégias de gestão de dados adequadas asseguram vários fatores de valor acrescentado ao
processo de investigação, nomeadamente a salvaguarda dos dados, algo muito crítico para
qualquer projeto de investigação, independentemente da sua dimensão.

A importância da gestão de dados

Marcar esta página como favorita

No vídeo que se segue são enunciadas algumas das mais-valias associadas a uma boa gestão
de dados de investigação. Desde que se inicia um projeto até à sua comunicação e
disseminação.

Depois de compreendermos o que são os dados de investigação, que tipos de dados existem e
como são geridos os dados no ciclo de vida da investigação, vale a pena comprender qual a
importância da gestão dos dados em projetos e unidades de investigação.

Benefícios diretos

Tornar a investigação mais fácil

Evitar trabalho irrelevante

Dados organizados, sabendo dessa forma quais os mais atualizados

Compreender e reutilizar os dados no futuro

Integridade da investigação

Evitar acusações de fraude ou má ciência

Evidências e validação dos resultados de investigação

Códigos de boas práticas de investigação

Financiadores requerem planos de gestão e partilha de dados

Potencial de partilha

Reutilização dos dados

Aumento dos índices de citação quando os dados são partilhados

Maior impacto e novas colaborações

Promover a inovação e permitir que a investigação avance mais rápido


Razões para investir em gestão de dados adequada (num minuto)

Marcar esta página como favorita

O vídeo que se segue destaca de forma resumida as vantagens decorrentes da aplicação das
boas práticas na gestão de dados, apresentando-se em seguida uma lista de verificação para
auxiliar na correta gestão dos dados de investigação.

Razões para investir em gestão de dados adequada (num minuto)

Lista de verificação para a gestão de dados de investigação

Para auxiliar na verificação da correta gestão dos dados de investigação, a eRSA propõe uma
lista de verificação que apresenta 13 atividades chave e requisitos para assegurar uma boa
gestão dos dados de investigação:

Criação de um plano de gestão de dados

Dados e ficheiros organizados logicamente

Utilização de textos e rótulos consistentes

Registo dos metadados metodológicos

Disponibilização dos ficheiros num formato comum e durável, sempre que possível (p. ex.: CSV,
não XLS)

Armazenamento dos dados num local seguro

Realização de back-ups

Aplicação de um período de retenção

Identificação clara da autoria dos dados

Cumprimento das diretrizes éticas

Publicação do registo de metadados ao nível da coleção num portal de pesquisa relevante

Aplicação de uma licença adequada

Atribuição de um DOI para permitir a citação do conjunto de dados

Responsabilidades na gestão de dados de investigação

Marcar esta página como favorita


A gestão de dados não é apenas da responsabilidade do investigador que criou ou recolheu os
dados. São vários os intervenientes no processo de investigação e que podem contribuir para
assegurar a boa qualidade dos dados, salvaguarda e facilitação da sua partilha. É crucial que os
papéis e responsabilidades sejam claramente definidos e não apenas presumidos. No contexto
de investigação colaborativa, a atribuição de papéis e responsabilidades entre os vários
parceiros é muito importante.

Valerá a pena pensar que na gestão de dados de investigação e no planeamento dos dados
estão presentes vários parceiros:

unção Responsabilidades

Diretor de projeto Conceção e monitorização da investigação

Equipa de investigação Conceção da investigação, recolha, processamento e análise dos dados

Equipa laboratorial ou técnica Produção de metadados e documentação

Gestor de base de dados Gestão do sistema de base de dados

Serviços externos Envolvidos na recolha, inserção, transcrição, processamento ou análise de d

Equipa de suporte Gestão e administração da investigação e financiamento, disponibilizando su


de propriedade intelectual

Equipa de Tecnologias de Disponibilização de serviços de armazenamento de dados, segurança e back


Informação

Data centers externos ou Facilitação da partilha de dados


arquivos Web

Poderá também ser considerada a necessidade de formação sobre os vários aspetos da gestão
de dados de investigação, dedicada à equipa envolvida nas responsabilidades de gestão de
dados.

Os centros de investigação e projetos em larga escala podem também considerar como


melhorar o suporte aos investigadores através de um framework de partilha de boas práticas,
orientações e políticas.
O acesso aberto a dados de investigação no âmbito da Ciência Aberta

Marcar esta página como favorita

A Ciência Aberta é a atividade científica praticada de modo aberto, colaborativo e


transparente, em todos os domínios do conhecimento, desde as ciências fundamentais até às
ciências sociais e humanidades [FOSTER, Open Science Definition].

A Ciência Aberta é mais do que o acesso aberto às publicações e dados de investigação. Para
além da abertura dos resultados da investigação, a prática da ciência aberta implica que o
processo de investigação seja ele próprio aberto, usando métodos, ferramentas e workflows
que facilitem a partilha, reutilização e colaboração. Por isso, a Ciência Aberta é um conceito
abrangente que se baseia em diversos pilares e inclui múltiplas dimensões: acesso aberto a
publicações, ciência cidadã, revisão por pares aberta, software open source e código aberto,
cadernos de laboratório abertos, recursos educacionais abertos e redes sociais e científicas.

Módulo 2: o essencial sobre...


O que são Planos de Gestão de Dados

Marcar esta página como favorita

plano

Os Planos de Gestão de Dados (PGD) são elementos chave para uma boa gestão no decorrer
de um projeto de investigação. Estes descrevem todo o ciclo de vida dos dados, desde a sua
recolha, processamento, tratamento, disponibilização ao acesso.

A tipologia dos dados a criar, recolher e processar varia muito em função da área disciplinar e
do tipo de projeto a desenvolver.

É necessário ter sempre em conta as especificações que os financiadores de ciência e inovação


estabelecem para os seus beneficiários, sendo cada vez mais comum a apresentação como
pré-requisito de um Plano de Gestão de Dados, muitas vezes na fase de proposta de projeto de
investigação.

As principais razões apresentadas pelos financiadores são, por um lado, promover boas
práticas de gestão de dados que assegurem a devida documentação e preservação dos
conjuntos de dados, evitando perdas e custos associados; e por outro lado, melhorar e
maximizar o acesso e a reutilização dos dados de investigação, garantindo que os resultados de
projetos de investigação com financiamento público são disponibilizados para reutilização e
verificação pela sociedade em geral.

Um plano de Gestão de Dados é um documento que define:

Como os dados serão criados;

Como serão documentados;

Quem poderá aceder aos dados;

Onde e como serão guardados;

Quem fica responsável pela sua preservação;

Se e como os dados podem ser partilhados e preservados.

Os planos de Dados são um contributo essencial para um projeto de investigação de


qualidade:

Permitem encontrar e compreender os dados quando precisar de usá-los;

Garantem continuidade após saída de elementos da equipa do projeto, ou na entrada de


novos investigadores;

Evitam duplicação de trabalho – ex: re-coletar ou trabalhar dados;

Dados de apoio a publicações são mantidos, permitindo a validação de resultados;

Promovem a partilha de dados, o que leva a maior colaboração e avanços na investigação;

A investigação torna-se mais visível e ganha maior impacto;

Outros investigadores podem citar os seus dados.

O PGD não é um documento fixo, evolui e ganha maior precisão e substância à medida que o
projeto se desenvolve, uma vez que nem todos os dados ou usos potenciais são claros desde o
princípio.

Razões para a elaboração de Planos de Gestão de Dados

Marcar esta página como favorita

Algumas das razões para a necessidade de um Plano de Gestão de Dados:

Primeira razão:

um Plano de Gestão de Dados (PGD) apoia o planeamento e organização da recolha de dados,


fazendo com que se pense com cuidado nas questões que surgirão quando se começar a
produzir e recolher dados. Um PGD documenta as principais atividades do ciclo de vida dos
dados de investigação, como recolha, descrição, preservação e acesso ou pesquisa de dados.
Essa documentação é crucial para a reprodutibilidade dos resultados da investigação, que é
um princípio fundamental da investigação científica. Um PGD fornece detalhes valiosos
relativos ao processo como os dados serão preservados a longo prazo, como e onde o
investigador disponibilizará os dados para partilha e reutilização, e quando esse acesso aberto
será permitido.

Segunda razão:

um PGD pode ajudar a prevenir ou reduzir a probabilidade de contratempos, como perda de


dados, erros de dados e usos desadequados dos dados. Com efeito, um PGD promove uma
melhor documentação e comunicação dos dados e ainda uma melhor responsabilização,
elevando o seu potencial de reprodutibilidade.

Terceira razão:

os dados que foram gerados por um projeto financiado por instituições estatais ou
governamentais são dados financiados publicamente - isto é, são provenientes de investigação
tornada possível por dinheiros públicos. Como tal, a menos que haja restrições de segurança
ou dados sensíveis, os resultados desses projetos incluem dados que devem ser
disponibilizados ao público para uma ampla partilha e acessibilidade.

Por último,

ter um PGD reflete o entendimento de que os dados produzidos e recolhidos têm valor
intrínseco, são por isso mesmo fonte de atribuição, passíveis de crédito aos seus autores e
devem ser referenciados e devidamente citados por outros que os reutilizem.

Vantagens do planeamento da gestão de dados de


investigação
Este gráfico ilustra as mais-valias da utilização de um Plano de Gestão de
Dados ao longo de todo o processo de investigação.  Os planos de gestão de
dados são, de facto, recursos fundamentais no planeamento e na gestão dos
dados no ciclo de vida da investigação, desde a recolha de dados, seu
processamento e documentação, até à partilha e acesso para reutilização.
O que compõe um plano de gestão de dados
 Marcar esta página como favorita

Relativamente à sua estrutura


Um plano de gestão de dados de investigação é um documento “vivo” que
pressupõe atualizações, tantas quantas necessárias, sempre que se
justifique a atualização ao conjunto de dados, ou possíveis alterações aos
procedimentos no seu tratamento. Todo este processo irá facilitar o
decurso de todo o projeto, na sua orientação, detalhe e melhor acuidade
no tratamento dos dados, conferindo-lhe mais visibilidade e possibilidade
de reutilização.

O nível de detalhe será definido em concordância com o projeto.

O que devemos ter em consideração para iniciar este


processo?
O Digital Curation Center disponibiliza uma checklist orientadora com
questões e dicas que vão desde:

o Dados administrativos

o Recolha dos dados

o Documentação e metadados

o Conformidades legais e éticas

o Armazenamento e cópias de segurança

o Seleção e preservação

o Partilha de dados

o Responsabilidades e recursos

Ou seja, será necessário reunir informação que responda de forma cabal a


algumas perguntas:

o Que dados serão criados ou recolhidos?

o Como é que os dados vão ser criados ou gerados?

o Que documentação ou metadados integrar nos dados?

o Como lidar com as questões éticas?

o Como lidar com questões de direitos de autor e propriedade


intelectual?
o Como é que os dados serão armazenados e criadas cópias de
segurança durante o projeto?

o Como identificar níveis de acesso e segurança dos dados?

o Que dados deverão ser mantidos e preservados?

o O que é um plano de preservação de dados a longo prazo?

o Como serão partilhados os dados?

o Existem orientações para atribuição de restrições ou acesso


aberto aos dados?

o Quem é responsável pela gestão dos dados?

o Que recursos são necessários para a implementação do plano?

No contexto dos projetos H2020, os Planos de Gestão de Dados deverão


incluir informação sobre:

o como os dados serão manipulados ao longo de todo o processo;

o de que forma serão recolhidos, processados e/ou gerados;

o que métodos e normas serão utilizadas no seu tratamento;

o que conjuntos de dados serão disponibilizados em acesso aberto,


e

o como se irá proceder à sua curadoria e preservação.

Formato dos dados


A escolha dos formatos a usar para os dados é muito relevante, quer para
facilitar o acesso, através da utilização de formatos standard, quer em termos
de preservação no tempo, para garantir o acesso continuado e uma possível
reutilização, evitando a sua obsolescência.

Ferramentas para a elaboração de planos de


gestão de dados
 Marcar esta página como favorita
A elaboração de planos de gestão de dados pode ser agilizada com o
recurso a ferramentas já existentes, disponibilizadas por diferentes
entidades.

Para facilitar o trabalho dos investigadores, algumas destas ferramentas já


providenciam os planos de acordo com os requisitos dos financiadores. Todas
são passíveis de serem utilizadas, parametrizadas e ajustadas à medida do
projeto que os investigadores se encontram a gerir.

Estas ferramentas apresentam normalmente modelos para elaboração de


planos de gestão de dados configurados para os requisitos dos financiadores,
por exemplo, a aplicação DMPonline tem um modelo para projetos no âmbito
do H2020 da Comissão Europeia.

De seguida encontra alguns exemplos de ferramentas para a elaboração de


planos de gestão de dados, sendo que aconselhamos a utilização da
ferramenta DMPonline desenvolvida pelo Digital Curation Center do Reino
Unido, onde se poderá registar livre e gratuitamente.

PRATIQUE - Sugestão de atividade:


Crie o seu próprio plano de dados! Crie um plano de dados com base no
modelo dos projetos de investigação com financiamento no quadro do
Horizonte 2020.

Primeiro, aceda à aplicação DMPonline (https://dmponline.dcc.ac.uk/) e crie a


sua conta. De seguida crie o seu primeiro plano, selecionando o modelo
"European Commission H2020". Proceda com a elaboração de um plano
"fícticio" ou com alguma base real num projeto em que esteja envolvido. Siga
as orientações e ajudas disponibilizadas no sistema.

Requisitos dos financiadores de ciência para os


planos de dados
 Marcar esta página como favorita
Um dos requisitos estabelecidos pelas entidades financiadoras relativamente à
gestão de dados é a elaboração de um plano de gestão de dados. Este pode
ser solicitado na fase de candidatura, como parte integrante da proposta de
projeto, ou após a aprovação do projeto (como é o caso da Comissão Europeia
no âmbito do Horizonte 2020).

Os Planos de Gestão de Dados são frequentemente


requeridos como parte dos acordos de subvenção dos
financiadores de ciência, mas são úteis em todos os projetos
sempre que os investigadores criam dados.

Segue-se uma lista de tópicos que normalmente fazem parte dos


requisitos dos financiadores para a elaboração de planos de gestão
de dados (tópicos comuns em vários financiadores nacionais e
internacionais, públicos e privados):

o Descrição dos dados a recolher/criar (ou seja, conteúdo, tipo,


formato, volume, etc.);
o Normas e metodologias para a recolha e gestão de dados;

o Questões éticas, deontológicas e de propriedade intelectual


(destacar as restrições à partilha de dados, por exemplo, embargos,
confidencialidade);

o Planos para a partilha de dados e acesso (ou seja, como, quando


e a quem);

o Estratégia de preservação a longo prazo.

A Science Europe (Associação Europeia de Organizações de


Financiamento da Investigação) estabeleceu em novembro de 2018
os requisitos essenciais para Planos de Gestão de Dados. No seu guia
sobre gestão de dados de investigação (Practical Guide to the
International Alignment of Research Data Management (novembro
2018) estabelece as orientações para os financiadores, indicando que no
sentido de desenvolver planos de gestão de dados sólidos, os investigadores
devem abordar os seguintes tópicos e responder às seguintes perguntas:

1. Descrição dos dados e recolha ou reutilização de conjuntos


de dados existentes

a. Como serão recolhidos ou produzidos os novos dados e/ou como os dados


existentes serão reutilizados?

b. Que dados (por exemplo tipos, formatos e volumes) serão recolhidos ou


produzidos?

2. Documentação e qualidade dos dados

a. Que metadados e documentação (por exemplo a metodologia de recolha de


dados e o modo de organização dados) acompanharão os dados?

b. Que medidas de controlo da qualidade de dados serão utilizadas?

3. Armazenamento e backup durante o processo de investigação

a. Como serão armazenados os dados e metadados durante o processo de


investigação?

b. Como serão tratadas a segurança dos dados e a proteção de dados


sensíveis durante a investigação?

4. Requisitos legais e éticos, códigos de conduta


a. Se forem tratados dados pessoais, como será assegurado o cumprimento da
legislação relativa aos dados pessoais e à proteção dos dados?

b. Como serão geridas outras questões jurídicas, como os direitos de


propriedade intelectual? Que legislação é aplicável?

c. Como serão tidas em conta as possíveis questões éticas, e que códigos de


conduta serão seguidos?

5. Partilha de dados e preservação a longo prazo

a. Como e quando os dados serão disponibilizados em acesso aberto? Há


possibilidade de restrições à partilha de dados ou motivos para embargo?

b. Como serão selecionados os conjuntos de dados para preservação e onde


será assegurada a preservação a longo prazo (por exemplo repositórios de
dados ou arquivos de dados)?

c. Que métodos ou ferramentas de software serão necessários para aceder e


usar os dados?

d. Como é que será assegurado o registo de identificador único e persistente


(como o DOI) para cada conjunto de dados?

6. Responsabilidades e recursos em matéria de gestão de dados

a. Quem (por exemplo função, cargo e instituição) será responsável pela


gestão dos dados (ou seja, o administrador de dados)?

b. Que recursos (por exemplo financeiros e de tempo) serão dedicados à


gestão de dados e à garantia de que os dados são compatíveis com os
princípios FAIR (Findable, Accessible, Interoperable, Re-usable)?

Estratégias para organizar dados de


investigação
 Marcar esta página como favorita

No início de um projeto de
investigação, quando ainda tudo é
muito novo, é natural que ainda
esteja bem presente o nome que se
dá a ficheiro / documento e onde
este foi guardado (arquivado).
Mas à medida que o projeto avança, os ficheiros vão aumentando em
número e em tipologia, aliada às múltiplas notas que também se foram
adicionando e, às diferentes versões dos ficheiros que se foram criando.

Tentar localizar um documento ou um ficheiro que possa ter sido mal


arquivado ou nomeado, pode revelar-se uma tarefa inglória. Assim, as boas
práticas de gestão dos ficheiros e toda a documentação associada ao projeto
é essencial, facilitando a sua identificação, localização e uso dos dados de
pesquisa.

A definição de uma estratégia para organização dos ficheiros e pastas com


todos os dados do projeto é fundamental, sob pena de perdermos o controlo de
tudo o que produzimos e estamos a coletar num determinado contexto. 

Convenções de atribuição de nomes aos ficheiros

A escolha de um “bom” nome para os ficheiros é muito importante, na medida


em que: 

o o identifica inequivocamente; 

o auxilia na sua classificação;

o fornece dicas úteis para o possível conteúdo e o estado em que o


mesmo se encontra.

Podemos enumerar algumas vantagens destas práticas, tais como:

o Os ficheiros de dados serão distinguidos pelas pastas onde estão


inclusos;

o A atribuição do nome evita a geração de equívocos,


principalmente quando estamos num ambiente partilhado e colaborativo;

o Os ficheiros são mais facilmente pesquisados e localizados;

o Potencia a pesquisa não só pelo autor mas também por outros


utilizadores;

o Poderão ser implementadas lógicas sequenciais de organização;

o Evita o risco de eliminação ou reescrita sobre o mesmo ficheiro


de forma acidental;

o Facilmente se identificam várias versões dos ficheiros;

o Mesmo que os dados sejam transferidos, a sua lógica


organizacional mantém-se.
Boas práticas de organização de ficheiros
 Marcar esta página como favorita
As tarefas de organização de dados estão facilitadas com o uso das novas
tecnologias, uma vez que agilizam a obtenção da informação e propriedades
dos ficheiros em arquivo (tipo de arquivo, data, hora de criação e modificação).
Com isto não significa que o investigador não tenha de intervir, para registar e
classificar essa informação.

Uma das tarefas é a atribuição de nomes aos ficheiros, podendo estes conter:

o acrónimos; 

o as iniciais dos investigadores;

o número de versões;

o estado do ficheiro; 

o data.

Exemplos de boas práticas para


nomeação dos ficheiros:

o Criar nomes
significativos e curtos;

o Evitar a utilização de
espaços e caracteres especiais;

o Não utilizar nomes


genéricos que possam entrar em
conflito, quando lhes é alterada a
localização;

o Assegurar a efetiva
sincronização de ficheiros para evitar
erros na mudança de equipamento;

o Os nomes dos ficheiros deverão permanecer para além da


pessoa que os criou;

o O nome do ficheiro deverá incluir informação descritiva que


auxiliará na sua identificação, independentemente do sítio onde é
armazenado; 

o Usar linha (_) em alternativa aos pontos finais (.) ou espaços, isto
porque estes sinais têm diferentes interpretações, dependendo dos sistemas;
o Se incluir datas faça-o de forma consistente (mais comum: Ano-
Mês-Dia: AAAA-MM-DD ou AAAA-MM ou AAAA-AAAA), auxilia na ordenação
cronológica;

o Tenha em atenção o uso de maiúsculas, pois os sistemas podem


assumir informações diferentes;

o Poderá usar as extensões dos ficheiros se o ajudar na sua


identificação, por exemplo do software onde foi criado (xls ou xlsx para ficheiros
Excel, txt para ficheiros de texto, etc.).

O resultado de uma boa
organização será uma melhor
localização, recuperação e
partilha dos ficheiros e suas
versões, mesmo com potenciais
elementos da equipa de
investigação, em caso de
trabalho colaborativo.

Os ficheiros poderão ser organizados


em pastas, por tipologia de dados:

o Conjuntos de dados;

o Texto;

o Imagens;

o Modelos;

o Som;

o Outras atividades decorrentes da investigação (entrevistas,


inquéritos, grupos de discussão, ou outro material - dados, documentação,
publicações).
Formatos

Marcar esta página como favorita

O formato de um ficheiro será a forma de codificar a informação num computador, para que
uma aplicação ou programa seja capaz de identificar o formato e permita o acesso ao seu
conteúdo.
Convencionalmente os formatos dos ficheiros vêm associados à extensão do nome do ficheiro,
designado de sufixo, antecedido por um ponto (.) que são compostos por três ou quatro letras
(ex. jpeg ou jpg).

Nota: A visualização da extensão do ficheiro difere de sistema operativo.

O formato proprietário terá de ser aberto no software que lhe deu origem, impedindo o acesso
a quem não tem licença de utilização. Neste sentido, os formatos abertos (Open Formats) são
aqueles que potencialmente serão abertos por mais do que uma aplicação (ex. Adobe pdf
pode ser aberto noutros softwares que não apenas pelos produtos da Adobe).

Obsolescência dos formatos e normas

Serão os formatos não proprietários ou de uso generalizado que tenderão a


prevalecer no futuro. No entanto, face às rápidas transformações tecnológicas,
grande parte destes formatos correm o risco de se tornarem obsoletos, o que
não se compadece com a necessidade de aceder aos dados num longo
período de tempo e que os mesmos permaneçam acessíveis no futuro.

Assim, a opção será pelos formatos normalizados, pois terão menos


probabilidade de se tornarem obsoletos, independentemente de poderem
existir algumas perdas (de formatação ou macros). 

A título de exemplo, o formato pdf, criado pela Adobe, tornou-se uma standard


na publicação de documentos online, dado que mantém a formatação e
apresentação original.

Migração, compressão e versões


 Marcar esta página como favorita
Migração dos formatos dos ficheiros

Durante o processo de investigação poderá surgir a necessidade


de converter ou migrar dados de um formato para outro, por razões várias:
mudança de computador, novo software, trabalho numa plataforma
colaborativa, ou mesmo para garantir a acessibilidade aos dados no futuro.

Nestes casos, convém ter especial cuidado para eventuais perdas de


informação e até mesmo qualidade dos dados, tais como:

o Em ficheiros de processamento de texto: fontes, formatação,


cabeçalhos e rodapés, ligações para outros documentos;
o Ficheiros numéricos: caracteres especiais (tabulações), retornos
de fim de linha (devido a limitações de tamanho de linha), utilização de espaços
em branco a indicar a ausência de dados, etc.;

o Ficheiros de bases de dados: mesmos problemas enunciados


anteriormente;

o Ficheiros de imagem: perda de camadas, resolução e precisão


cromática;

o Multimédia: conforme enunciado anteriormente mas com especial


cuidado à qualidade do som e à forma como estes formatos são “empacotados”
(codecs).

Neste processo os ficheiros poderão mudar e, até tornar-se


surpreendentemente grandes, recomendando-se por isso que, antes de
começar, se informe sobre o formato para o qual está a fazer a conversão.

Após a conversão deverá verificar a integridade dos dados o


mais completo possível.

Compressão de dados

No decorrer do processo de investigação


poderá optar por comprimir ficheiros de
dados, por questões de espaço (local ou
colaborativo). Podemos designar este
processo de redução da proporção de bits,
que normalmente implica o recodificar da
informação fazendo uso de menos bits do
que o original.

Alguns cuidados:

o Zip (.zip) é um formato de


compressão usado por vários sistemas
operativos (SO), no entanto, existem outros
específicos para cada sistema operativo;

o Zip é um tipo de compressão


“sem perdas”, o que quer dizer que deverá
ser idêntico ao original quando
descompactado;
o Existem tipos de compressão às quais podem estar associadas
“perdas” em alguns formatos de ficheiros multimédia, podendo resultar em
distorções ou perda da qualidade aquando da reprodução.

Antes da tomada de decisão pela compressão teremos de avaliar e pesar


todas as questões associadas:

o no tempo do processamento (comprimir e descomprimir),


principalmente se estivermos a pensar em arquivos de dados muito grandes ou
em servidores compartilhados; 

o nos recursos computacionais que possam estar associados.

É importante identificar e distinguir de forma clara e evidente as versões dos dados, a fim de
garantir o rastreamento e acompanhar o seu crescimento, por forma a identificar versões
anteriores. Assim, será importante estabelecer uma regra a aplicar no decurso do projeto a
todas as versões.

O mais comum será ordenar as versões com a utilização de numeração árabe - ex. 1, 2, 3,... -
com números inteiros para grandes atualizações e, com numeração decimal para ligeiras
alterações (ex. v1, v1.1, v.2).

Dar especial atenção ao uso do nome a utilizar, que poderá induzir a confusão e/ou erro nas
assunções (ex. revista, final, final2, finalíssima, etc.). O ideal será registar todas as alterações,
mesmos as mais ínfimas.

Nota: Deverá ir eliminando as versões mais obsoletas, mantendo sempre a matriz, assim como
preferir por auto-backups a salvar manualmente as múltiplas versões.

Caso esteja a trabalhar em documentos colaborativos (wikis, GoogleDocs) assegure-se que


mantém o rastreamento das versões ou, em alternativa, poderá considerar o uso de software
específico para controlo de versões (Subversion, TortoiseSVN).

Alguns exemplos de nomeação e controlo de versões:

Smith_interview_July2010_V1_DRAFT

Lipid-analysis-rate-V2_definitive
2001_01_28_ILB_CS3_V6_AB_edited

Documentação, metadados e normalização de dados

Marcar esta página como favorita

Documentação

A documentação refere-se ao ato de descrever os conjuntos de dados que ocorre a vários


níveis:

Descrição do processo de recolha dos dados por parte do investigador, que poderá ser feita
num livro de códigos, num caderno de laboratório;

Descrição dos próprios dados (quantidade, que formato de dados, que software utilizado para
leitura dos dados);

Descrição das alterações realizadas nos dados ao longo do processo, muitas vezes utilizado
para registar e criar um histórico de todas as utilizações e edições que os dados sofreram
durante um período de tempo.

Uma documentação correta dos dados assegura que estes sejam pesquisáveis e
inequivocamente compreendidos, pelos utilizadores atuais e futuros (incluindo o próprio
investigador).

A função de documentação dos dados dependerá igualmente do momento em que estes se


encontram - dentro do ciclo de vida dos dados.

Metadados e normalização

Por metadados entendemos a descrição / informação sobre os dados.

Metadados fornecem informação sobre um dado e a sua relevância, para que, sempre que
necessário, possa ser facilmente recuperado. A diferença entre este termo e documentação é
que a documentação é concebida para ser lida por humanos e metadados implica o
processamento feito por computador, apesar de poder ser lido por humanos.

A documentação por vezes é considerada uma forma de metadado, pois é informação sobre
dados. A importância dos metadados reside nas suas potencialidades de comunicação com
outros sistemas - interoperabilidade.
> Consultar o diretório de esquemas de metadados gerido pela Research Data Alliance: ver
aqui.

Metadados são normalmente utilizados para:

Pesquisa de recursos, fornecem informações também elas pesquisáveis, auxiliando os


utilizadores a encontrar facilmente a informação;

Registo bibliográfico para citação;

Catálogos de dados online ou agregadores que, por norma, são estruturados de acordo com
normas e esquemas de metadados internacionais, como por exemplo:

- Dublin Core;

- ISO 19115 (informação geográfica);

- Data Documentation Initiative;

- Metadata Encoding and Transmission Standards (METS);

- General International Standards Archival Description (ISAD(G)).

Uso de registos normalizados em XML (eXtensible Mark-up Language), que permitem reunir
num único documento a informação de dados chave, criando conteúdos ricos e estruturados
sobre os dados;

Servirem de mecanismo de extração e análise, permitindo pesquisas específicas. Facilitam


ainda a utilização de ferramentas de pesquisa federada (agregadores), permitindo a integração
e acesso a diferentes catálogos de dados. Além disso, os metadados podem ser recolhidos para
partilha de dados por meio de protocolos de intercâmbio de dados - Open Archives Initiative
Protocol for Metadata Harvesting (OAI-PMH).

Citação de dados
 Marcar esta página como favorita
No decorrer de um processo de investigação é imprescindível o recurso às
fontes e recursos utilizados / consultados, por forma a conferir
credibilidade, veracidade e confiabilidade ao autor, às suas descobertas e
assunções. 

O mesmo se aplica aos dados de investigação que, nestes últimos anos,  têm
sido olhados sob uma perspetiva mais integradora, no todo que é a
investigação científica, com o auxílio da comunidade académica, mais
participativa e colaboradora em torno das questões da Ciência Aberta.

É neste contexto que 2014, um grupo chamado Force 11, que acredita que os
dados de investigação devem ser tratados como "objetos de pesquisa de 1.ª
classe", juntamente com as publicações, emitiu uma Declaração Conjunta de
Princípios de Citação de Dados, que foi aprovada por vários organismos
científicos e editores.

O objetivo será incluir informação sobre os dados, de maneira a que o leitor


possa localizar esses recursos a que a investigação se refere. A DataCite,
organismo sem fins lucrativos, provedor de DOIs para os dados de
investigação, que visa promover padrões de citação de dados, recomenda a
integração dos seguintes elementos:

Assumir boas práticas de documentação de dados,


de metadados e de citação de dados, contribui
para melhores resultados no que toca à
reprodutibilidade da investigação - princípio
fundamental do método científico.

Dar a possibilidade de citar os dados de investigação é importante


para:

o Possibilitar a sua localização;

o Dar crédito - Criar impacto:

 Significa que foi estabelecida a relação entre os


dados e a pessoa (autor) que os produziu;

 Investigadores poderão estabelecer ligação entre os


seus dados e o seu ORCID-id;

 Pelo movimento Almetrics (métricas alternativas)


que afirma que o impacto da investigação é determinado pelo
número de referências que se conseguem extrair dos diferentes
produtos de investigação.
Licenças para a reutilização de dados

Marcar esta página como favorita

Licenças para dados de investigação

Que licença deverá ser aplicada aos dados de investigação?

Tudo dependerá da correta identificação dos direitos que protegem os seus dados de
investigação.
Se os dados de investigação são classificados como um trabalho literário, ou um software,
normalmente aplicam-se as CC BY 4.0. O uso da licença partilha igual (CC BY-SA) é compatível
com as políticas de Acesso Aberto e reforçado com as novas diretivas emanadas pela Science
Europe - EC: Plano S, que visam dar um forte contributo na transição para o acesso aberto,
apontando uma meta para 2020, data a partir da qual, as publicações provenientes de
investigação científica financiada devem ser publicadas em acesso aberto.

A licença para uso não comercial (CC BY-NC) deverá ser evitada dado que não é compatível
com o acesso aberto. A licença sem derivações (CC BY-ND) pode assumir contornos não muito
claros, principalmente se não estivermos conscientes do que estamos a fazer.

Se os dados de investigação são um conjunto de dados ou uma base de dados (dados não
estruturados, não condizentes com a definição de base de dados), normalmente a opção será
usar uma licença CC0 (domínio público) que permitirá que renuncie a todos os direitos sobre
essa base de dados.

Não esquecer:

As licenças CC apenas abarcam as questões de direitos de autor e direitos conexos. Dados


pessoais são analisados de forma separada.

O que é uma licença Creative Commons (CC)?

A CC é uma organização não lucrativa que proporciona ferramentas legais para partilha e
reutilização de obras com autoria. Tem produzido um número de licenças que vão ao encontro
dos critérios de acesso aberto e que oferecem diferentes níveis de permissão.

As Creative Commons conferem assim licenças legíveis a três níveis:

Legal;

Por máquina (metadados);

Pelo homem (descrições com linguagem acessível e desprovidas de um discurso


assumidamente legal).

Desta forma são uma poderosa ferramenta na medida em que permitem que o utilizador
determine qual a licença que melhor se adapta à sua realidade. As licenças de carácter mais
restritivo não se aplicam a este contexto de acesso aberto, dado que impõem limitações ao
uso comercial.

Como aplicar as licenças aos dados de investigação

Marcar esta página como favorita


As licenças não são automáticas. Aquele que pretende proteger os seus dados de investigação,
deverá ter presente em que contexto a licença está a ser aplicada. Neste contexto, os gestores
de repositórios poderão auxiliar na seleção da licença a ser aplicada no respetivo repositório. A
aplicação / seleção de uma licença poderá acontecer quando:

Temos de optar por uma licença no ato de depósito dos dados num repositório;

Necessitamos de referenciar na página de destino ou no site onde estamos a alojar os dados;

Anexamos uma licença nos metadados dos dados de investigação;

Estamos a preparar um tutorial para os dados.

Em todo o caso, aconselha-se sempre a obter informação juntos dos gestores de repositórios
em acesso aberto sobre como utilizar estas ferramentas.

Estou preocupado com a atribuição da licença. Como posso assegurar que os outros irão citar-
me como fonte da minha própria investigação?

Preocuparmo-nos com estas questões é relevante, no entanto, e numa tentativa de auxiliar os


outros a citar o nosso trabalho poderá, por exemplo, incluir a citação no próprio trabalho,
agilizando o processo, bastando copiar e colar a referência. Caso a investigação esteja
protegida com uma licença CC BY é recomendável que este procedimento seja realizado
apenas para trabalhos como artigos em revistas, fotografia ou uma música.

Quando envolve a produção de bases de dados protegidas, será aconselhável o uso da licença
CC0.

Aqui podemos solicitar o respeito pela licença, não como requisito legal mas inserido nos
cânones científicos estabelecidos, no que toca à citação de fontes.

Não estou confortável com o uso comercial do meu conjunto de dados. Deverei usar uma
licença com atribuição não-comercial?

Não é de todo aconselhável o uso da licença com atribuição não-comercial. Numa perspectiva
legal não é muito claro o uso desta licença, podendo ser bastante difícil estabelecer uma
separação entre o que é comercial daquilo que não é comercial.
Se pensarmos no caso de um conjunto de dados que se encontram protegidos com uma
licença não-comercial, estamos claramente a informar que uma organização não poderia
comercializar estes dados. No entanto, também iria impedir o seu uso num contexto de
investigação, cujo propósito passasse pela publicação, dado que a maior parte das revistas
académicas têm um fundamento comercial, ou seja, cobram o acesso aos seus conteúdos.
Assim, podemos estar igualmente a afetar a própria disseminação, reconhecimento e possível
impacto da utilização dos dados e resultados dessa investigação.

Para mais informação consulte:

Berlin Declaration on Open Access Publishing

Bethesda Statement on Open Access Publishing

Budapest Open Access Initiative

Não me sinto confortável com o uso dos meus dados. Deverei usar uma licença Sem
derivações?

Não é recomendado o uso desta licença, será o equivalente ao uso da licença anterior, não
permitindo a reutilização dos seu dados em futuras investigações. Para que os seus dados
sejam verdadeiramente abertos estas tipologias de reutilização deverão estar consagradas.

Especificações para licenciamento de dados de


investigação
 Marcar esta página como favorita

Existirá alguma parte dos dados que não poderá ser


tornada acessível?
No momento de redação deveremos ter especial atenção para remover dados
pessoais, informações confidenciais ou propriedade intelectual de terceiros.

Eu pretendo fazer uso da Licença CC no meu projeto, no


entanto, como fiz uso de material também ele protegido por
direitos de autor, questiono se afetará esses mesmos
direitos?
A sua licença CC é aplicável apenas aos seus contributos, não abrangendo por
isso outros direitos de autores que citou ou tem permissão para usar.

Como deverei licenciar os meus dados no contexto da


Ciência Aberta?
Recomenda-se que use uma licença CC0 Declaração de Domínio Público que,
em 1.ª instância, é uma renúncia mas que poderá funcionar como uma licença,
quando a renúncia não é possível. A aplicação desta licença permitirá a
reutilização dos seus dados de forma livre, renunciando aos seus direitos de
autor e direitos conexos desses mesmos dados.

Como deverei licenciar o meu trabalho no contexto do


Acesso aberto?
Fazendo uso da licença CC BY 4.0. 

Caso exerça funções numa instituição de ensino será aconselhável que


verifique estas questões e solicite apoio junto do coordenador do projeto e dos
serviços de documentação (biblioteca), pois a sua instituição poderá já ter
adotado uma política de acesso aberto que deverá consultar.

Estarão os dados sempre sujeitos a direitos de autor?


Devemos ter presente que existem dados que não se encontram sob a alçada
dos direitos de autor e direitos conexos. Aqui podemos incluir factos, nomes,
números - que são considerados como dados não originais fazendo por isso,
parte do domínio público. Aplicando esta ideia, uma base de dados (coleção de
dados estruturados) poderá ser considerada como contendo dados não
originais, não sendo portanto elegível para contextos de aplicação de direitos
de autor, e também eventualmente excluída de outras formas de proteção (por
exemplo Direitos Sui Generis sobre Bases de Dados). 

Nestes casos, o uso de uma licença CC BY indica aos potenciais utilizadores


que foi reinvindicada a autoria, independentemente da real intenção de uso. Se
os dados estão em domínio público apenas poderá atestar que não existe
qualquer restrição no seu uso, aplicando uma Marca de Domínio Público

Existe algum tipo de obrigação de confidencialidade ou ética


relativamente aos dados?
Este tipo de obrigações poderão ser impostas de forma contratual, no entanto,
a maioria dos investigadores estão sujeitos a códigos de ética e conduta.

Proteção de dados de investigação


 Marcar esta página como favorita
As unidades seguintes apresentam os elementos dos dados de
investigação que podem ser automaticamente protegidos pelos direitos de
propriedade intelectual, como por exemplo:

o Trabalhos protegidos por direitos de autor;

o Bases de dados protegidas por direitos de autor;


o Direitos Sui Generis de Bases de Dados (SGDR*).

* A SGDR é um direito que protege as bases de dados sempre que tenha


havido um investimento substancial na obtenção, verificação ou apresentação
dos dados.

Quando é que os dados de investigação se encontram protegidos?

Os dados de investigação podem ser factuais e/ou criativos. Dados como, por
exemplo factos, princípios, conceitos matemáticos e métodos não são
protegidos por direitos de autor. No entanto, há casos em que os dados, não
como dados, mas como parte das recolhas, podem ser protegidos. Além
disso, apesar de os dados enquanto tal não estarem protegidos por direitos de
autor, não significa que não estejam protegidos por outras leis, como por
exemplo informação confidencial ou dados pessoais.

Como é que as regras relativas aos dados de investigação têm impacto na


sua utilização?

Vários tipos de proteção podem existir em dados de investigação, ou podem


haver alguns elementos que não tenham proteção legal. Por defeito, os
proprietários dos direitos de proteção podem restringir o uso desses direitos. O
licenciamento é a forma de estipular quando e como os direitos de proteção
nos dados de investigação podem ser utilizados por outros.

Antes de pensar em licenciar ou utilizar dados de investigação, é importante


conhecer os direitos que podem surgir automaticamente nos dados de
investigação.

Direitos Sui Generis de Bases de Dados (SGDR)


 Marcar esta página como favorita

As bases de dados são automaticamente protegidas por lei se:

o A seleção ou organização de conteúdos são da criação


intelectual do autor, neste caso a proteção de direitos de autor aplica-se à
estrutura da base de dados (e não ao seu conteúdo), ou

o Se qualificarem para um direito especial de propriedade


intelectual (direito Sui Generis de bases de dados - SGDR), porque houve um
investimento substancial na obtenção, verificação ou apresentação dos dados
(por exemplo: bases de dados de títulos de poesia). É importante referir que o
investimento na criação de dados não conta para o limite de proteção da
SGDR. Um bom exemplo para distinguir a criação da obtenção de dados, é no
domínio dos eventos desportivos: os resultados dos jogos são dados criados,
pelo que os organizadores desportivos não têm um SGDR nesta matéria. Os
dados relativos aos eventos desportivos ao vivo (por exemplo: quem marca, em
que minutos) são dados obtidos, e por conseguinte, podem ser protegidos pelo
SGDR.

O conteúdo de uma base de dados também pode ser composto por trabalhos
protegidos por direitos de autor, como por exemplo uma base de dados de
artigos académicos. No entanto, neste caso os direitos de autor da base de
dados não se estendem ao conteúdo, existem simplesmente dois direitos de
autor independentes na mesma base de dados, os direitos de autor da
estrutura da base de dados se for suficientemente original, e os direitos de
autor (independentes) do elemento que constitui a base de dados.

Adicionalmente, pode igualmente existir um direito SGDR no investimento


substancial numa base de dados. Neste caso, protege-se a base de dados de
extrações substanciais, oferecendo assim uma forma de proteção eficaz aos
dados que, de outro modo, não seriam protegidos.

Em conclusão, uma base de dados pode ser protegida por até três direitos
diferentes que regulamentam três usos diferentes. Podem pertencer a três
autores/proprietários diferentes e seguir três regras diferentes em termos de
excepções e limitações.

Quem é o proprietário dos direitos Sui Generis de uma base de dados ?

O SGDR é propriedade do criador da base de dados, que é normalmente a


pessoa ou entidade que suporta o risco financeiro. Na investigação académica,
o risco financeiro dos projetos é habitualmente suportado pela instituição. Por
conseguinte, é possível que o SGDR de uma base de dados produzida durante
a investigação possa ser propriedade da instituição, mesmo que os direitos de
autor da base de dados possam ser propriedade do investigador. No entanto,
os contratos entre as diferentes partes (subvenções de financiamento, políticas
de propriedade intelectual das universidades, contratos de trabalho dos
investigadores, etc.) podem ser diferentes.

É, portanto, importante verificar os termos de qualquer acordo de financiamento


ou colaboração para ver se a propriedade dos produtos finais é especificada.

Por quanto tempo estão ativos os direitos da SGDR?

15 anos, renováveis se for feito um novo investimento substancial.

O que podem fazer os titulares do SGDR?

O SGDR confere ao titular dos direitos, o direito de realizar ou autorizar a


extração (cópia) de uma quantidade substancial de dados, ou a extração
repetida de uma quantidade insignificante, e a sua reutilização alarga assim,
efetivamente a proteção dos dados.
Direitos de autor
 Marcar esta página como favorita
A lei dos direitos de autor garante ao seu titular o direito exclusivo de controlar
certos direitos, como a reprodução, distribuição, comunicação ao público, etc.

O direito de autor é automático, não é necessário registar, depositar ou aplicar


o símbolo ©, embora todas essas atividades sejam permitidas e possam até
ser úteis.

Quem detém dos direitos de autor?

O autor é normalmente a pessoa que cria o trabalho, mas se o trabalho for


criado em conjunto, pode ser de propriedade conjunta, e se o trabalho é criado
por alguém no decurso de um contrato de trabalho, pode ser propriedade do
empregador (dependendo do contrato).

Quanto tempo duram os direitos de autor?

A regra por defeito na União Europeia (UE), define que os direitos perduram
durante a vida do autor e 70 anos após a sua morte. Os direitos conexos (por
exemplo: gravação de som, fotografias não-originais, etc.) têm períodos
diferentes, que estão mais ou menos harmonizados na UE.

O que podem fazer os titulares dos direitos de autor?

Os titulares dos direitos de autor têm o direito de restringir certos atos em


relação ao trabalho protegido, como a cópia, distribuição e comunicação do
trabalho ao público. Na prática, na maioria dos casos, o uso de obras
protegidas por direitos de autor requer a permissão do proprietário.

Como podem ser utilizados os trabalhos protegidos por direitos de autor?

Podem existir exceções e limitações aplicadas à utilização dos trabalhos


protegidos pelos direitos de autor (O artigo 5º da Diretiva da Sociedade da
Informação, de 2001, sobre o direito de autor, contém uma lista de cerca de 21
exceções e limitações ao direito de autor). 

Na ausência de uma exceção ou limitação, a utilização abrangida por direitos


de autor está reservada aos seus autores.

No entanto, é possível a reutilização de um trabalho se ele for licenciado para


utilização individual ou para utilização pública. As licenças Creative Commons
ou as licenças FLOS são exemplos deste tipo de permissões públicas (e
geralmente condicionais).
Dependendo do tipo de licença, a livre utilização dos dados de investigação
pode ser permitida, possibilitando a utilização/reutilização ou a remistura.
Outros dados de investigação podem estar sujeitos a certas condições, como a
atribuição do proprietário original dos dados de investigação, ou a atribuição
dos proprietários de outros direitos sobre os dados de investigação. Licenças
mais restritivas podem impedir a utilização dos dados de investigação para fins
comerciais ou a sua não alteração. Se os dados de investigação não
especificarem uma licença, é necessário considerar se a utilização de conteúdo
protegido nos dados de investigação infringe os direitos de alguém.

Existem direitos legais automáticos para conjuntos de dados?

O direito de autor e o direito Sui Generis das bases de dados (SGDR) surgem
automaticamente nos trabalhos qualificados na União Europeia. Se um um
conjunto de dados contiver trabalhos protegidos, a posição padrão é que esses
direitos são da propriedade do autor ou criador.

E se o investigador for colaborador de uma instituição de investigação ou


um estudante?

Dependendo do contrato de trabalho e das políticas de propriedade intelectual


da instituição, a lei pode reconhecer os direitos de autor de um colaborador
como sendo propriedade do empregador.

E se existir uma relação contratual entre o investigador e outra entidade


(por exemplo um financiador)?

Um acordo de colaboração ou de financiamento pode especificar que a


propriedade da investigação a realizar pertence ao financiador, ou que este tem
uma licença automática para a investigação.

E se algum dos dados tiver sido obtido de uma terceira parte que impôs
termos e condições?

Por exemplo, os conjuntos de dados recolhidos através de plataformas de


redes sociais estarão sujeitos aos termos e condições dessa plataforma, que
podem especificar como os dados podem ser utilizados ou disponibilizados.

Quem assume o risco de financiamento para a investigação?

Embora o direito de autor seja geralmente propriedade do autor do trabalho, o


direito Sui Generis de uma base de dados é propriedade da pessoa ou
organização que suportou o risco financeiro na criação da base de dados. Isto
deve ser verificado caso a caso, mas é geralmente o empregador ou a unidade
que tem autonomia orçamental.

Proteção de dados pessoais


 Marcar esta página como favorita
Os aspetos relacionados com a proteção de dados são cruciais para o
processo de investigação, especialmente se estiver planeado a partilha
dos dados de investigação. A proteção dos dados de investigação significa
proteger os direitos das pessoas envolvidas no processo de investigação.

O que são dados pessoais

Dados pessoais são qualquer informação que possa ser usada para identificar


indivíduos, como por exemplo o nome ou data de nascimento. Algumas
informações pessoais - como a origem de uma pessoa, opinião política,
crenças religiosas, saúde, filiação sindical ou orientação sexual - são
classificadas como dados pessoais sensíveis.

Informações como o número de filhos que uma pessoa tem ou o


tamanho dos seus sapatos, podem ser usados para revelar a
identidade de um participante do estudo se o tamanho da amostra for
pequeno. Sempre que se lida com dados pessoais e/ou sensíveis
como parte da investigação, é necessário garantir de que estes estão
protegidos.

Proteção de dados pessoais

O projeto de investigação deverá incluir medidas de proteção de dados em


cada etapa. Na lista seguinte são apresentadas algumas ações a ter em conta
ao iniciar cada novo projeto:

o Analisar se é realmente necessário recolher dados pessoais para


realizar a investigação;

o Considerar a recolha de dados de forma anónima, se possível;

o Identificar quais os dados pessoais que poderão ser incluídos na


investigação;

o Incluir aspetos de proteção de dados no plano de gestão de


dados;

o Criar e utilizar formulários de consentimento;

o Definir uma estratégia de anonimização apropriada para a


investigação;

o Garantir o armazenamento, controlo de acesso e transferência de


dados com segurança.
O CESSDA (Consortium of European Social Science Data Archives)
disponibiliza algumas dicas úteis sobre como adaptar o plano de gestão de
dados para abranger a proteção de dados aqui. 

Tendo em conta que o processo de limpeza e anonimização dos dados poderá


ser dispendioso, é considerado boa prática identificar as atividades de
anonimização para as quais possam incorrer custos adicionais durante o
processo de planeamento de gestão de dados, indicando-os no processo de
candidatura a financiamento.

Requisitos legais: Regulamento Geral sobre a


Proteção de Dados da União Europeia (RGPD)
 Marcar esta página como favorita
Em abril de 2016, a União Europeia adotou o seu regulamento relativo à
proteção das pessoas singulares no que diz respeito ao tratamento de dados
pessoais e à livre circulação desses dados, o Regulamento Geral sobre a
Proteção de Dados (RGPD). O RGPD tornou-se obrigatório em maio de 2018.

Ao recolher e/ou tratar dados pessoais, os investigadores são obrigados a


seguir uma série de princípios, incluindo:

o Transparência: tratamento de dados pessoais de modo lícito,


equitativo e transparente;

o Minimização dos Dados: a utilização dos dados será limitada ao


objetivo da respetiva investigação;

o Integridade e confidencialidade: os dados devem ser


protegidos por medidas de segurança adequadas (técnicas e organizacionais).

Saiba mais sobre a forma como o RGPD da UE afeta o tratamento de dados


pessoais aqui. 

Requisitos legais: Isenções da RGPD para investigação

Quanto à recolha de dados pessoais, o RGPD inclui uma isenção para a


investigação:

o se disser respeito "ao interesse público, a fins de investigação


científica ou histórica ou a fins estatísticos" (Art. 5.1 2016/679/EU); ou

o se "o titular dos dados tiver dado o seu consentimento para o


tratamento dos seus dados pessoais para uma ou mais finalidades
específicas"  (Art. 6.1 2016/679/EU).
Benefícios e desafios em partilhar dados de
investigação
 Marcar esta página como favorita
A gestão de dados de investigação
(GDI) aplica-se a todo o processo de
criação, armazenamento,
disponibilização, manutenção e
preservação dos dados. 
A GDI é considerada um dos aspetos
essenciais para um processo de
investigação responsável.
Tem-se observado, nestes últimos
anos, uma tendência por parte das
organizações financiadoras e das
universidades, em encorajar os
investigadores a enveredar por este
processo de planeamento dos seus
projetos de investigação.

Assim, a GDI permitirá a


preservação, a proteção e a
divulgação dos dados por detrás de
um projeto de investigação, das suas
descobertas e, acima de tudo, da
qualidade, veracidade, rigor
associada ao mesmo, trazendo à luz
práticas de ciência claras, legítimas,
com rigor científico, onde os seus
direitos de propriedade poderão ser
facilmente protegidos, desencorajando qualquer tentativa de fraude.

Serão as Universidades e instituições financiadoras que poderão dar


orientação na gestão dos dados, através da disponibilização de ferramentas,
ações de esclarecimento, no sentido de dar visibilidade aos seus projetos de
investigação e respetivos resultados.

A clara definição de responsabilidades para todas as partes envolvidas


neste processo é a chave de sucesso para uma GDI bem-sucedida e
acessível a todos!

Os dados associados a um projeto de investigação são um recurso valioso, não


só para o investigador, mas também porque a ele estão afetas, na maior parte
das vezes, avultadas somas de dinheiro, assim como pela utilidade que estes
dados poderão ter para além da investigação que lhe deu origem.

Um processo de investigação com acesso aos dados:


o Potencia uma investigação rigorosa e instiga o debate;

o Promove a inovação e a potencial reutilização dos dados;

o Leva a criação de novas sinergias entre aqueles que


criam os dados e os potenciais utilizadores (outros investigadores);

o Exponencia a transparência na investigação científica e


responsabilização;

o Permite um exame atento e apuramento dos resultados obtidos


da investigação;

o Incentiva a melhoria dos métodos de validação da investigação


científica;

o  Contribui para a redução dos custos associados a eventuais


duplicações de recolha de conjuntos de dados;

o Aumenta o impacto e a visibilidade da investigação;

o Promove o próprio projeto que esteve por detrás da investigação


e os seus resultados;

o Confere créditos ao(s) investigador(es) por detrás do processo;

o Permite disponibilizar importantes recursos para educação e


formação.

Repositórios abertos de dados


 Marcar esta página como favorita
Idealmente os dados de investigação deverão ser depositados num repositório
institucional ou noutro mais específico (disciplinar), da área de investigação por
exemplo, ou num repositório mais generalista.

Com o intuito de avaliar e melhorar a qualidade dos processos de trabalho,


a comunidade científica já pode contar com várias normas internacionais
de certificação de repositórios digitais - "Repositório Digital Confiável". Para
o efeito, apresentam-se 3 instrumentos de certificação:

 CoreTrustSeal (CTS) - baseado no Data Seal of Approval e


no World Data System (ICSU). Todos os repositórios que tenham uma destas
certificações surgem no website do CTS como certificado;

 Nestor Seal - verificação de repositórios de acordo com a


norma de certificação de repositórios DIN 31644 (Information and
documentation - Criteria for trustworthy digital archives);
 ISO 16363: 2013 para auditoria e certificação de
repositórios.

Repositórios generalistas como o Zenodo, o FigShare ou o Dryad, apesar de


ainda não terem o selo da Core Trust Seal, seguem outras normas de
confiabilidade para os investigadores, quer seja os princípios FAIR dos dados
ou outras normas ISO, para sistemas de gestão da segurança da informação
(ISO 27001).

Algumas dicas para encontrar um repositório de dados:

 Use um repositório disciplinar, se existir;

 Em alternativa use o repositório de dados institucional, ou


outro que garanta a preservação a longo prazo;

 Use um repositório generalista como o Zenodo, criado e


gerido pelo CERN;

 Ou pesquise no portal re3data.org por um repositório que


se ajuste às suas necessidades e reúna as condições para o seu depósito.

Na maior parte das vezes é o próprio financiador


que determina a forma como este processo deverá
decorrer. Em todo o caso, a partilha dos dados,
através do seu depósito num repositório de dados
aberto, potencia a sua reutilização e comunicação
dos mesmos!

A título de exemplo, para os projetos


H2020 já é claramente assumido a
participação no Piloto de Dados
Abertos, sendo que deverão ser
depositados os seguintes dados:

o Todos os dados
necessários para validar os
resultados publicados em revistas
científicas, inclusive metadados
descritivos dos dados depositados;

o Todos os restantes dados, incluindo metadados associados que


se encontrem identificados no Plano de Gestão de Dados, de acordo com o
contratualizado com o financiador;
o Deverá igualmente disponibilizar informação (via repositório
escolhido para depósito) sobre as ferramentas necessárias para validar os
resultados (ex. software).

Os repositórios podem fornecer diretrizes para formatos e padrões de


metadados, identificadores persistentes, bem como suporte para lidar com
dados sensíveis e licenciamento. 

Serviços de bases de dados e arquivo de dados


 Marcar esta página como favorita
Ter em atenção a longevidade
e proteção dos dados,
evitando perdas irreparáveis,
exige uma definição de
estratégias ao nível do
armazenamento, cópias de
segurança, transferência de
suportes e disponibilização
dos dados. 

A acessibilidade aos dados irá


depender em muito da
qualidade e confiabilidade do
local de armazenamento,
dada a volatilidade de muitas
das opções que vemos no
mercado Vs obsolescência
dos suportes. Daí que a
acessibilidade irá depender
em muito destes 2 fatores. 

Locais para armazenamento


dos dados:

o Alojamento local
- discos externos, pen drive, cd’s e dvd’s - estes últimos rapidamente se tornam
obsoletos, sendo aconselhada transferência de suporte entre 2 a 5 anos de
intervalo (mínimo);

o Alojamento colaborativo (fornecido pela universidade, por ex.) -


pode oferecer alojamento em servidor ou serviços na Nuvem;

o Alojamento na Nuvem - muito vulgarizada a sua utilização


(Google Drive, OneDrive, DropBox, iCloud, etc.) e com algumas vantagens na
portabilidade, acesso e sincronização, no entanto, outras questões associadas
à durabilidade do próprio serviço, segurança, de propriedade intelectual, limites
de armazenamento, também deverão ser equacionadas;

o Alojamento num repositório (institucional ou disciplinar) ou arquivo


de dados - cada vez mais as instituições estão a adotar este tipo de soluções e
a garantir a disponibilização de uma ferramenta não só para depósito final dos
dados mas, igualmente, com outras variantes de armazenamento de versões
dos diferentes conjuntos de dados, com inúmeras possibilidades de partilha,
através da atribuição de níveis de segurança, etc. (dependendo do software).

Melhores práticas para a preservação e curadoria


de dados
 Marcar esta página como favorita
Práticas de preservação incluem tópicos de segurança, dos quais
destacamos:

o segurança física,

o segurança de rede,

o segurança dos sistemas, 

de forma a garantir a segurança dos dados e evitar o acesso não autorizado,


alteração dos dados ou até mesmo destruição. 

Questões de segurança também estão associadas à propriedade intelectual,


interesses comerciais ou à natureza mais sensível dos dados.

Alguns requisitos importantes neste contexto:

ACESSO FÍSICO

o Controlo no acesso aos espaços (salas) onde se encontram os


dados e os equipamentos utilizados;

o Registo dos acessos, das edições, … aos dados;

o Movimentação de dados sensíveis só apenas em circunstâncias


especiais, mesmo em eventuais casos de reparação do equipamento.

SEGURANÇA DE REDE

o Não alojar (armazenar) dados confidenciais (ex. dados pessoais)


em servidores ou computadores com ligação a redes externas;
o Manter o computador sempre atualizado relativamente aos
parâmetros de segurança (firewall e antivírus).

SEGURANÇA NOS SISTEMAS

o Acesso ao computador com palavra-passe e aos ficheiros de


dados, com níveis de acesso;

o Proteger os servidores contra interrupção súbita de energia com


sistemas apropriados;

o Estabelecer acordos de confidencialidade - no que toca a dados


pessoais e sensíveis;

o Evitar envio de dados pessoais, confidenciais, sensíveis via e-


mail, preferir sempre o seu envio como dados encriptados;

o A destruição dos dados também deverá ser feita de forma


consistente.

Para garantirmos o acesso continuado aos dados, à sua


partilha e consequente acesso, entendimento e interpretação,
exige que tenhamos em consideração que uma descrição
detalhada, anotada e com informação de contexto é
imprescindível. 

Não esquecer que:

o Os dados não têm qualquer valor se


não estiverem devidamente documentados;

o Por documentação de dados


podemos incluir: inquérito por questionário,
entrevistas, gravações de entrevistas, dados numa
tabela, artigos científicos publicados, descrição da
metodologia utilizada na recolha dos dados, etc.;

o As cópias de segurança são


componentes essenciais a fim de se evitar perda
de dados (falha no hardware, software, humana,
…);

o Organização criteriosa das cópias de segurança (sistema de


etiquetagem);
o Ficheiros matriz - assegurar a integridade e não violação da fonte
original dos dados.

Você também pode gostar