Escolar Documentos
Profissional Documentos
Cultura Documentos
Nota: É importante notar que a distinção entre dados em bruto ou processados, ainda que
possa ser útil, não é livre de ambiguidades, pois diferentes disciplinas poderão ter noções
diferentes acerca de um mesmo conjunto de dados.
Secundários: dados disponíveis (abertos), reutilizados por outros que não os seus produtores.
Estes dados, para serem usados, necessitam de ter documentação de contextualização
associada.
Big data: dados (datasets) de grande dimensão, muitas vezes provenientes de instrumentos
específicos;
Long tail data: datasets de pequenas dimensões. Dada a sua natureza heterogénea,
constituem um maior desafio em termos de planeamento, gestão, preservação e reutilização,
devido à sua natureza heterogénea e singular.
Dados de observação: capturados em tempo real, geralmente únicos e insubstituíveis (p. ex.:
imagens cerebrais, dados de inquéritos);
Dados experimentais: recolhidos a partir de equipamentos de laboratório, podendo ser
reprodutíveis (p. ex.: cromatogramas, micro-ensaios);
1) Planeamento
2) Implementação
- Recolher dados
- Organizar dados
- Descrever dados
- Analisar dados
3) Disseminação
- Depositar trabalho
4) Descoberta e impacto
- Entender métricas
4) Preservação
ciclo
Sintetizando, os ciclos de dados apresentam várias etapas, nas quais estão incluídos diferentes
processos, mas que podem ser agrupados em três fases distintas neste modo de integração
entre o ciclo dos dados e ciclo da investigação: fases de Planeamento, Produção e
Disseminação.
Fase de Planeamento
Fase de Produção
Após o início do Projeto e dos trabalhos de investigação são criados os primeiros dados no
âmbito desse mesmo projeto. Nesta fase ocorrem todos os procedimentos e transformações
aos dados, para que possam ser posteriormente publicados, passando deste modo do domínio
restrito ao domínio público.
Fase de Disseminação
É após publicação dos dados que estes podem finalmente ser acedidos e reutilizados, gerando
eventualmente, novos dados de investigação, e dando novamente reinício ao ciclo de dados.
É importante notar que podem existir casos, em que os dados produzidos são imediatamente
publicados, ou seja, de modo em que o momento da produção seja coincidente com o
momento da disseminação. No entanto, tal só deverá acontecer após a reflexão cuidada dos
passos apresentados nas fases distintas, pelo que não é considerada boa prática a
disseminação sem que tenham existido previamente medidas concretas de curadoria e gestão.
Uma boa gestão de dados é a base para uma investigação bem sucedida. A gestão eficiente ao
longo do ciclo de vida dos dados é muito importante para o sucesso dos projetos de
investigação ou de estudos pós-graduados.
No vídeo que se segue são enunciadas algumas das mais-valias associadas a uma boa gestão
de dados de investigação. Desde que se inicia um projeto até à sua comunicação e
disseminação.
Depois de compreendermos o que são os dados de investigação, que tipos de dados existem e
como são geridos os dados no ciclo de vida da investigação, vale a pena comprender qual a
importância da gestão dos dados em projetos e unidades de investigação.
Benefícios diretos
Integridade da investigação
Potencial de partilha
O vídeo que se segue destaca de forma resumida as vantagens decorrentes da aplicação das
boas práticas na gestão de dados, apresentando-se em seguida uma lista de verificação para
auxiliar na correta gestão dos dados de investigação.
Para auxiliar na verificação da correta gestão dos dados de investigação, a eRSA propõe uma
lista de verificação que apresenta 13 atividades chave e requisitos para assegurar uma boa
gestão dos dados de investigação:
Disponibilização dos ficheiros num formato comum e durável, sempre que possível (p. ex.: CSV,
não XLS)
Realização de back-ups
Valerá a pena pensar que na gestão de dados de investigação e no planeamento dos dados
estão presentes vários parceiros:
unção Responsabilidades
Poderá também ser considerada a necessidade de formação sobre os vários aspetos da gestão
de dados de investigação, dedicada à equipa envolvida nas responsabilidades de gestão de
dados.
A Ciência Aberta é mais do que o acesso aberto às publicações e dados de investigação. Para
além da abertura dos resultados da investigação, a prática da ciência aberta implica que o
processo de investigação seja ele próprio aberto, usando métodos, ferramentas e workflows
que facilitem a partilha, reutilização e colaboração. Por isso, a Ciência Aberta é um conceito
abrangente que se baseia em diversos pilares e inclui múltiplas dimensões: acesso aberto a
publicações, ciência cidadã, revisão por pares aberta, software open source e código aberto,
cadernos de laboratório abertos, recursos educacionais abertos e redes sociais e científicas.
plano
Os Planos de Gestão de Dados (PGD) são elementos chave para uma boa gestão no decorrer
de um projeto de investigação. Estes descrevem todo o ciclo de vida dos dados, desde a sua
recolha, processamento, tratamento, disponibilização ao acesso.
A tipologia dos dados a criar, recolher e processar varia muito em função da área disciplinar e
do tipo de projeto a desenvolver.
As principais razões apresentadas pelos financiadores são, por um lado, promover boas
práticas de gestão de dados que assegurem a devida documentação e preservação dos
conjuntos de dados, evitando perdas e custos associados; e por outro lado, melhorar e
maximizar o acesso e a reutilização dos dados de investigação, garantindo que os resultados de
projetos de investigação com financiamento público são disponibilizados para reutilização e
verificação pela sociedade em geral.
O PGD não é um documento fixo, evolui e ganha maior precisão e substância à medida que o
projeto se desenvolve, uma vez que nem todos os dados ou usos potenciais são claros desde o
princípio.
Primeira razão:
Segunda razão:
Terceira razão:
os dados que foram gerados por um projeto financiado por instituições estatais ou
governamentais são dados financiados publicamente - isto é, são provenientes de investigação
tornada possível por dinheiros públicos. Como tal, a menos que haja restrições de segurança
ou dados sensíveis, os resultados desses projetos incluem dados que devem ser
disponibilizados ao público para uma ampla partilha e acessibilidade.
Por último,
ter um PGD reflete o entendimento de que os dados produzidos e recolhidos têm valor
intrínseco, são por isso mesmo fonte de atribuição, passíveis de crédito aos seus autores e
devem ser referenciados e devidamente citados por outros que os reutilizem.
o Dados administrativos
o Documentação e metadados
o Seleção e preservação
o Partilha de dados
o Responsabilidades e recursos
No início de um projeto de
investigação, quando ainda tudo é
muito novo, é natural que ainda
esteja bem presente o nome que se
dá a ficheiro / documento e onde
este foi guardado (arquivado).
Mas à medida que o projeto avança, os ficheiros vão aumentando em
número e em tipologia, aliada às múltiplas notas que também se foram
adicionando e, às diferentes versões dos ficheiros que se foram criando.
o o identifica inequivocamente;
Uma das tarefas é a atribuição de nomes aos ficheiros, podendo estes conter:
o acrónimos;
o número de versões;
o estado do ficheiro;
o data.
o Criar nomes
significativos e curtos;
o Evitar a utilização de
espaços e caracteres especiais;
o Assegurar a efetiva
sincronização de ficheiros para evitar
erros na mudança de equipamento;
o Usar linha (_) em alternativa aos pontos finais (.) ou espaços, isto
porque estes sinais têm diferentes interpretações, dependendo dos sistemas;
o Se incluir datas faça-o de forma consistente (mais comum: Ano-
Mês-Dia: AAAA-MM-DD ou AAAA-MM ou AAAA-AAAA), auxilia na ordenação
cronológica;
O resultado de uma boa
organização será uma melhor
localização, recuperação e
partilha dos ficheiros e suas
versões, mesmo com potenciais
elementos da equipa de
investigação, em caso de
trabalho colaborativo.
o Conjuntos de dados;
o Texto;
o Imagens;
o Modelos;
o Som;
O formato de um ficheiro será a forma de codificar a informação num computador, para que
uma aplicação ou programa seja capaz de identificar o formato e permita o acesso ao seu
conteúdo.
Convencionalmente os formatos dos ficheiros vêm associados à extensão do nome do ficheiro,
designado de sufixo, antecedido por um ponto (.) que são compostos por três ou quatro letras
(ex. jpeg ou jpg).
O formato proprietário terá de ser aberto no software que lhe deu origem, impedindo o acesso
a quem não tem licença de utilização. Neste sentido, os formatos abertos (Open Formats) são
aqueles que potencialmente serão abertos por mais do que uma aplicação (ex. Adobe pdf
pode ser aberto noutros softwares que não apenas pelos produtos da Adobe).
Compressão de dados
Alguns cuidados:
É importante identificar e distinguir de forma clara e evidente as versões dos dados, a fim de
garantir o rastreamento e acompanhar o seu crescimento, por forma a identificar versões
anteriores. Assim, será importante estabelecer uma regra a aplicar no decurso do projeto a
todas as versões.
O mais comum será ordenar as versões com a utilização de numeração árabe - ex. 1, 2, 3,... -
com números inteiros para grandes atualizações e, com numeração decimal para ligeiras
alterações (ex. v1, v1.1, v.2).
Dar especial atenção ao uso do nome a utilizar, que poderá induzir a confusão e/ou erro nas
assunções (ex. revista, final, final2, finalíssima, etc.). O ideal será registar todas as alterações,
mesmos as mais ínfimas.
Nota: Deverá ir eliminando as versões mais obsoletas, mantendo sempre a matriz, assim como
preferir por auto-backups a salvar manualmente as múltiplas versões.
Smith_interview_July2010_V1_DRAFT
Lipid-analysis-rate-V2_definitive
2001_01_28_ILB_CS3_V6_AB_edited
Documentação
Descrição do processo de recolha dos dados por parte do investigador, que poderá ser feita
num livro de códigos, num caderno de laboratório;
Descrição dos próprios dados (quantidade, que formato de dados, que software utilizado para
leitura dos dados);
Descrição das alterações realizadas nos dados ao longo do processo, muitas vezes utilizado
para registar e criar um histórico de todas as utilizações e edições que os dados sofreram
durante um período de tempo.
Uma documentação correta dos dados assegura que estes sejam pesquisáveis e
inequivocamente compreendidos, pelos utilizadores atuais e futuros (incluindo o próprio
investigador).
Metadados e normalização
Metadados fornecem informação sobre um dado e a sua relevância, para que, sempre que
necessário, possa ser facilmente recuperado. A diferença entre este termo e documentação é
que a documentação é concebida para ser lida por humanos e metadados implica o
processamento feito por computador, apesar de poder ser lido por humanos.
A documentação por vezes é considerada uma forma de metadado, pois é informação sobre
dados. A importância dos metadados reside nas suas potencialidades de comunicação com
outros sistemas - interoperabilidade.
> Consultar o diretório de esquemas de metadados gerido pela Research Data Alliance: ver
aqui.
Catálogos de dados online ou agregadores que, por norma, são estruturados de acordo com
normas e esquemas de metadados internacionais, como por exemplo:
- Dublin Core;
Uso de registos normalizados em XML (eXtensible Mark-up Language), que permitem reunir
num único documento a informação de dados chave, criando conteúdos ricos e estruturados
sobre os dados;
Citação de dados
Marcar esta página como favorita
No decorrer de um processo de investigação é imprescindível o recurso às
fontes e recursos utilizados / consultados, por forma a conferir
credibilidade, veracidade e confiabilidade ao autor, às suas descobertas e
assunções.
O mesmo se aplica aos dados de investigação que, nestes últimos anos, têm
sido olhados sob uma perspetiva mais integradora, no todo que é a
investigação científica, com o auxílio da comunidade académica, mais
participativa e colaboradora em torno das questões da Ciência Aberta.
É neste contexto que 2014, um grupo chamado Force 11, que acredita que os
dados de investigação devem ser tratados como "objetos de pesquisa de 1.ª
classe", juntamente com as publicações, emitiu uma Declaração Conjunta de
Princípios de Citação de Dados, que foi aprovada por vários organismos
científicos e editores.
Tudo dependerá da correta identificação dos direitos que protegem os seus dados de
investigação.
Se os dados de investigação são classificados como um trabalho literário, ou um software,
normalmente aplicam-se as CC BY 4.0. O uso da licença partilha igual (CC BY-SA) é compatível
com as políticas de Acesso Aberto e reforçado com as novas diretivas emanadas pela Science
Europe - EC: Plano S, que visam dar um forte contributo na transição para o acesso aberto,
apontando uma meta para 2020, data a partir da qual, as publicações provenientes de
investigação científica financiada devem ser publicadas em acesso aberto.
A licença para uso não comercial (CC BY-NC) deverá ser evitada dado que não é compatível
com o acesso aberto. A licença sem derivações (CC BY-ND) pode assumir contornos não muito
claros, principalmente se não estivermos conscientes do que estamos a fazer.
Se os dados de investigação são um conjunto de dados ou uma base de dados (dados não
estruturados, não condizentes com a definição de base de dados), normalmente a opção será
usar uma licença CC0 (domínio público) que permitirá que renuncie a todos os direitos sobre
essa base de dados.
Não esquecer:
A CC é uma organização não lucrativa que proporciona ferramentas legais para partilha e
reutilização de obras com autoria. Tem produzido um número de licenças que vão ao encontro
dos critérios de acesso aberto e que oferecem diferentes níveis de permissão.
Legal;
Desta forma são uma poderosa ferramenta na medida em que permitem que o utilizador
determine qual a licença que melhor se adapta à sua realidade. As licenças de carácter mais
restritivo não se aplicam a este contexto de acesso aberto, dado que impõem limitações ao
uso comercial.
Temos de optar por uma licença no ato de depósito dos dados num repositório;
Em todo o caso, aconselha-se sempre a obter informação juntos dos gestores de repositórios
em acesso aberto sobre como utilizar estas ferramentas.
Estou preocupado com a atribuição da licença. Como posso assegurar que os outros irão citar-
me como fonte da minha própria investigação?
Quando envolve a produção de bases de dados protegidas, será aconselhável o uso da licença
CC0.
Aqui podemos solicitar o respeito pela licença, não como requisito legal mas inserido nos
cânones científicos estabelecidos, no que toca à citação de fontes.
Não estou confortável com o uso comercial do meu conjunto de dados. Deverei usar uma
licença com atribuição não-comercial?
Não é de todo aconselhável o uso da licença com atribuição não-comercial. Numa perspectiva
legal não é muito claro o uso desta licença, podendo ser bastante difícil estabelecer uma
separação entre o que é comercial daquilo que não é comercial.
Se pensarmos no caso de um conjunto de dados que se encontram protegidos com uma
licença não-comercial, estamos claramente a informar que uma organização não poderia
comercializar estes dados. No entanto, também iria impedir o seu uso num contexto de
investigação, cujo propósito passasse pela publicação, dado que a maior parte das revistas
académicas têm um fundamento comercial, ou seja, cobram o acesso aos seus conteúdos.
Assim, podemos estar igualmente a afetar a própria disseminação, reconhecimento e possível
impacto da utilização dos dados e resultados dessa investigação.
Não me sinto confortável com o uso dos meus dados. Deverei usar uma licença Sem
derivações?
Não é recomendado o uso desta licença, será o equivalente ao uso da licença anterior, não
permitindo a reutilização dos seu dados em futuras investigações. Para que os seus dados
sejam verdadeiramente abertos estas tipologias de reutilização deverão estar consagradas.
Os dados de investigação podem ser factuais e/ou criativos. Dados como, por
exemplo factos, princípios, conceitos matemáticos e métodos não são
protegidos por direitos de autor. No entanto, há casos em que os dados, não
como dados, mas como parte das recolhas, podem ser protegidos. Além
disso, apesar de os dados enquanto tal não estarem protegidos por direitos de
autor, não significa que não estejam protegidos por outras leis, como por
exemplo informação confidencial ou dados pessoais.
O conteúdo de uma base de dados também pode ser composto por trabalhos
protegidos por direitos de autor, como por exemplo uma base de dados de
artigos académicos. No entanto, neste caso os direitos de autor da base de
dados não se estendem ao conteúdo, existem simplesmente dois direitos de
autor independentes na mesma base de dados, os direitos de autor da
estrutura da base de dados se for suficientemente original, e os direitos de
autor (independentes) do elemento que constitui a base de dados.
Em conclusão, uma base de dados pode ser protegida por até três direitos
diferentes que regulamentam três usos diferentes. Podem pertencer a três
autores/proprietários diferentes e seguir três regras diferentes em termos de
excepções e limitações.
A regra por defeito na União Europeia (UE), define que os direitos perduram
durante a vida do autor e 70 anos após a sua morte. Os direitos conexos (por
exemplo: gravação de som, fotografias não-originais, etc.) têm períodos
diferentes, que estão mais ou menos harmonizados na UE.
O direito de autor e o direito Sui Generis das bases de dados (SGDR) surgem
automaticamente nos trabalhos qualificados na União Europeia. Se um um
conjunto de dados contiver trabalhos protegidos, a posição padrão é que esses
direitos são da propriedade do autor ou criador.
E se algum dos dados tiver sido obtido de uma terceira parte que impôs
termos e condições?
o Todos os dados
necessários para validar os
resultados publicados em revistas
científicas, inclusive metadados
descritivos dos dados depositados;
o Alojamento local
- discos externos, pen drive, cd’s e dvd’s - estes últimos rapidamente se tornam
obsoletos, sendo aconselhada transferência de suporte entre 2 a 5 anos de
intervalo (mínimo);
o segurança física,
o segurança de rede,
ACESSO FÍSICO
SEGURANÇA DE REDE