Resumo Análise de Dados

Dublin Core é um esquema de metadados que auxilia na descrição
de objetos digitais por meio da definição de diversos elementos de

metadados, entre os quais se incluem título, autor, assunto,
formato e fonte.
Com relação a metadados são definidos três

tipos: descritivos, estruturais, administrativos.
Os metadados descritivos vão revelar a parte semântica da informação.

Nessa categoria temos alguns elementos dentre os quais podemos citar
título, autor, descrição, data, assunto, dentre outros.
No modelo estrutural teremos a descrição da estrutura interna dos

objetos, que ajudarão para uma melhor recuperação das informações.
Por fim, no modelo administrativo temos informação sobre como os

arquivos foram criados.
Dada essa esplanada nos três tipos de metadados vamos falar um pouco
sobre o Dublin Core, que é um padrão de metadados do tipo descritivo.
Por ser de tipo descritivo o padrão Dublin Core:

Título → O nome dado ao recurso
Criador → A entidade responsável pela criação do conteúdo do recurso
Assunto → Tópicos do conteúdo do recurso
Descrição → Uma descrição do conteúdo do recurso
Publicador → Uma entidade responsável por tornar o recurso
disponível
Colaborador → Uma entidade responsável pela contribuição
intelectual ao conteúdo do recurso
Data → Uma data associada ao evento ou ciclo de vida do recurso
Tipo → A natureza ou gênero do conteúdo do recurso
Formato → A manifestação física ou digital do produto
Identificador → Uma referência não ambígua ao recurso, definida num
determinado contexto
Fonte → Uma referência a um recurso de onde o presente recurso
possa ter derivado
Idioma → A língua do conteúdo intelectual do recurso
Relação → Uma referência a um recurso relacionado
Cobertura → A extensão ou alcance do recurso
Direitos Autorais → Informação de direitos sobre o recurso ou
relativos ao mesmo
 Metadados sintáticos correspondem às sintaxes aplicadas
a documentos de formatos específicos, como DTD, XML e etc.
 Metadados estruturais correspondem às informações técnicas ou
físicas sobre um objeto digital, como formato do arquivo,
tamanho mídia e etc.
 Metadados semânticos fornecem informações que auxiliem na
compreensão do significado dos dados, como dados gerados a
partir de ontologias.
A eficiência na representação de dados relaciona-se à codificação de
fonte, cujo objetivo é remover redundâncias no conteúdo da
informação e, com isso, reduzir o tamanho da mensagem.
Galera, essa questão é aquela típica de resumir um conceito, que no

caso é codificação de fonte (ou compressão de dados)
O que o examinador quer dizer com a "eficiência na representação de

dados" ?
Ele diz que refere-se à codificação de fonte !
Como funciona a codificação de fonte na pratica? é um modo de

representar os dados em uma maneira codificada ( ou comprimida)!
Há alguns passos para realizar essa codificação "cujo objetivo é
remover redundâncias no conteúdo da informação e, com isso,
reduzir o tamanho da mensagem."
E como vemos isso na prática?
Note que foi eliminado algumas redundâncias e com isso o tamanho da

mensagem foi diminuído!
Podemos citar dois grandes importantes algoritmos de codificação[1][2]:

1. A codificação de Shannon-Fano é um método
de estatístico de compressão sem perda de dados que gera
códigos de tamanho variável para cada símbolo dos conjunto
de dados a ser comprimido de acordo com
sua probabilidade de ocorrência. Este método foi descrito
em 1948 por Claude Shannon em seu famoso artigo "A
Mathematical Theory of Communication" e atribuído à Robert
Fano. O método é anterior ao de codificação de Huffman, e
apesar de bastante eficiente e prático, gera resultados sub-
ótimos
2. A codificação de Huffman é um método de compressão que
usa as probabilidades de ocorrência dos símbolos no conjunto
de dados a ser comprimido para determinar códigos de
tamanho variável para cada símbolo. Ele foi desenvolvido
em 1952 por David A. Huffman que era, na época, estudante
de doutorado no MIT, e foi publicado no artigo "A Method for the
Construction of Minimum-Redundancy Codes".
É usado principalmente para reduzir o tamanho da mensagem e obter

vantagens como diminuir tempo de transmissão ou otimizar o espaço
usado em dispositivos de armazenamento.
Portanto, a eficiência na representação de dados relaciona-se à

codificação de fonte, cujo objetivo é remover redundâncias no
conteúdo da informação e, com isso, reduzir o tamanho da
mensagem.
Gabarito da questão CORRETO.
Podemos também usar a justificativa do CESPE:

CERTO.
“Eficiência de representação: codificação de fonte
Em artigos, discute-se a codificação de fonte, que trata da
representação eficiente de dados. Hoje, o termo é sinônimo de
compactação de dados. O objetivo básico da codificação de fonte é
remover a redundância nas informações para tornar a mensagem
menor. Em sua exposição, ele discute um método sem perdas de
compactar dados na fonte, usando um código de bloco de taxa variável,
mais tarde chamado de código de Shannon-Fano.”
Metadados são dados que descrevem os dados, ou seja, são
detalhes que referem ou identificam um dado/arquivo, por exemplo:
nome do autor, título, data e hora da criação do arquivo, entre outros.
Eles proporcionam a compreensão e a utilidade das informações dos
dados.
Os metadados são divididos em 3 categorias:
Metadados Estruturais: Faz referência a estrutura dos dados, no caso, o
formato, o tipo de um arquivo, pode ser considerado um metadado
estrutural.
Metadados Descritivos: Ele descreve um determinado arquivo,
apresentando as informações disponíveis do dado, ou seja, informações
gerais do arquivo, mostra a descrição do que se ver além do arquivo
visto. Exemplo: horário, nome do autor, data, resumo, palavra-chave,
entre outros.
Metadados Administrativos: Gerenciam, criptografam, suprimem os
metadados estruturais e os descritivos, eles configuram as permissões
de acesso aos metadados de um documento, portanto, eles cuidam da
segurança e proteção dos metadados.
Nessa perspectiva, os metadados contribuem para a verificação,
organização, e a recuperação da informação de um dado no ambiente
digital. É um meio que concede a localização e a restauração de
informações digitais, através de técnicas como classificação de
conteúdo, indexação e identificação dos recursos digitais.
A descrição dos dados por meio de metadados possibilita que os mesmos
sejam entendidos e compartilhados por sistemas, então, determina um
acesso uniforme aos dados dispostos, dessa forma, os metadados
funcionam como um mecanismo que contribui para facilitar a
interoperabilidade.
Nesse sentido, os metadados auxiliam na organização, busca
(descoberta), identificação e interoperabilidade dos recursos
aplicados no ambiente digital, porém não tem a funcionalidade de
traduzir as informações dos dados.
Obs: Interoperabilidade tem o papel de facilitar o acesso a informação,
ou seja, garantir que aja uma interação de forma eficiente e eficaz no
momento da troca de informação entre sistemas computacionais,
organizações e pessoas.
Concluímos, assim, que a resposta incorreta é a Letra B.
Dados podem ser definidos como sucessões de fatos brutos, que não
foram organizados, processados, relacionados, avaliados ou
interpretados, representando apenas partes isoladas de entidades,
eventos, situações ou ocorrências. Constituem as unidades básicas a
partir das quais informações poderão ser elaboradas ou obtidas. Os
dados referem-se a mais de um fato. Um determinado fato é referido
como item.
Dado: registros icônicos, simbólicos (fonéticos ou numéricos) e signos

(lingüísticos, lógicos ou matemáticos) por meio dos quais se
representam fatos, conceitos ou instruções. Carecem de significado e
não têm uso. Processamento: mediantes processos organizacionais são
agrupados, classificados, formatados etc.
Informação: dados ou matéria informacional relacionada ou estruturada

de maneira atual ou potencialmente significativa. Informação é um
significado.
Processamento: mediante análise são separados, validados,

comparados etc.
Conhecimento: estruturas informativas que, ao internalizar-se, se

integram a sistemas de relacionamento simbólico do mais alto nível e
permanência. Informação como compreensão.
a. Conhecimento Informativo: mediante processo avaliativos são
acrescidos: opções, vantagens e desvantagem
b. Conhecimento Produtivo: mediante processo decisórios são
conseguidas: definição de metas, negociação ou seleção,
compromisso
Inteligência: Estruturas de conhecimento que, sendo contextualmente

relevantes, permitem a intervenção vantajosa da realidade.
Assim, o item apresentado refere-se à dado, e não à informação.
Assim a questão está ERRADA.
Vamos entender primeiramente um pouco sobre as diferenças entre

dados estruturados, não estruturados e semi-estruturados. Após isso,
vamos analisar as alternativas:
 Dados Estruturados: São dados que contém uma organização para
serem recuperados. Normalmente organizado em linhas e colunas
que identificam diversos pontos sobre aquela informação. Bom
exemplo disso é um Banco de Dados
 Dados Semi-Estruturados: Apresentam uma representação
heterogênea, ou seja, possuem estrutura, mas ela é flexível.
Facilita o controle por ter um pouco de estrutura, mas também
permite uma maior flexibilidade.
 Dados Não Estruturados: Quando não conseguimos identificar
uma organização clara dos dados lá armazenados, concluímos que
esta é um dado não estruturado. Os dados não estruturados são
dados que não possuem uma estrutura definida como um arquivo
de música, uma imagem, um vídeo, entre outros.
Esqueminha pra ajudar pra prova[1]:

Portanto, podemos dizer que os dados estruturados diferenciam-se
dos dados não estruturados pela rigidez em seu formato e pelo fato
de poderem ser armazenados em campos de tabelas de um banco de
dados relacional.
Segundo Nina Edelweiss / Renata Galante:
"Os principais tipos de dados estruturados fornecidos pelas linguagens
de programação são: arranjos (também denominados vetores
e matrizes, utilizados para agregar componentes do mesmo tipo,
com um tamanho máximo predefinido), registros (para agregar
componentes de tipos diferentes), (...)"
Um dado escalar é um dado em que a variável pode possuir apenas um

valor. Os dados não escalares permitem mais de um valor a variável.
A informação apresentada trata-se de dado semi-estruturado:

Informação de esquema está mesclada aos valores dos dados, e cada
objeto de dados pode ter atributos diferentes, que não são conhecidos
com antecedência.
Dado estruturado ocorre a separação dos valores e seu esquema, como

em um formato de tabela com linha e colunas tipadas.
Nos últimos anos o termo big data tem se tornado frequente no

vocabulário dos estudantes e profissionais. Podemos definir Big
Data como um conjunto de dados, ou dataset, muito grande que
devido ao seu tamanho e diversidade não podem ser analisados e
gerenciados através de ferramentas clássicas como os sistemas de banco
de dados (SGBD). Para realizar a análise dos dados de um dataset
existem muitas ferramentas e metodologias. Dentre elas, podemos citar
duas formas de processar os dados:
 Análise em lote (batch) - A análise em Batch, é feita analisando

um lote de dados os quais foram agrupados e disponibilizados em
um intervalo de tempo específico. Nesse caso as tarefas são
executadas através de agendamento para execução, exigindo que
todos os dados da tarefa sejam carregados em algum tipo de
armazenamento para realizar o processamento. Essa opção é
geralmente utilizada quando se trabalha com grandes volumes de
dados ou fontes de sistemas legados, onde os dados não podem
ser trabalhados em streaming ou fluxo de tempo real.
 Análise em streaming (fluxo) - A análise de fluxo ou streaming é

o procedimento de análise realizado com registros de dados
continuamente em tempo real, ao contrário do agendamento em
lotes. Normalmente, esse tipo de procedimento é muito útil para
fontes que enviam dados pequenos (na ordem de
kilobytes) dentro de um fluxo contínuo de grande volume e alta
velocidade conforme a geração desses dados. Processos assim,
conseguem gerar análises quase instantâneas das informações. Ou
seja, os dados gerados para análise são contínuos e
simultâneos, vindos geralmente de muitas fontes de dados
pois incluem uma ampla variedade de informações.
Análise da afirmativa:
A afirmativa está CORRETA ao afirmar que os dados de streaming são

contínuos, em grande volume, com grande velocidade e de
diferentes fontes, como explicado na conceituação acima.

Resumo Análise de Dados

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Resumo Análise de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Dublin Core é um esquema de metadados que auxilia na descrição

de objetos digitais por meio da definição de diversos elementos de

Com relação a metadados são definidos três

Os metadados descritivos vão revelar a parte semântica da informação.

No modelo estrutural teremos a descrição da estrutura interna dos

Por fim, no modelo administrativo temos informação sobre como os

Por ser de tipo descritivo o padrão Dublin Core:

Galera, essa questão é aquela típica de resumir um conceito, que no

O que o examinador quer dizer com a "eficiência na representação de

Como funciona a codificação de fonte na pratica? é um modo de

E como vemos isso na prática?

Note que foi eliminado algumas redundâncias e com isso o tamanho da

Podemos citar dois grandes importantes algoritmos de codificação[1][2]:

É usado principalmente para reduzir o tamanho da mensagem e obter

Portanto, a eficiência na representação de dados relaciona-se à

Gabarito da questão CORRETO.

Podemos também usar a justificativa do CESPE:

Dado: registros icônicos, simbólicos (fonéticos ou numéricos) e signos

Informação: dados ou matéria informacional relacionada ou estruturada

Processamento: mediante análise são separados, validados,

Conhecimento: estruturas informativas que, ao internalizar-se, se

Inteligência: Estruturas de conhecimento que, sendo contextualmente

Assim, o item apresentado refere-se à dado, e não à informação.

Assim a questão está ERRADA.

Vamos entender primeiramente um pouco sobre as diferenças entre

Esqueminha pra ajudar pra prova[1]:

Um dado escalar é um dado em que a variável pode possuir apenas um

A informação apresentada trata-se de dado semi-estruturado:

Dado estruturado ocorre a separação dos valores e seu esquema, como

Nos últimos anos o termo big data tem se tornado frequente no

 Análise em lote (batch) - A análise em Batch, é feita analisando

 Análise em streaming (fluxo) - A análise de fluxo ou streaming é

A afirmativa está CORRETA ao afirmar que os dados de streaming são

Você também pode gostar