元数据设计、实施和最佳实践方面的创新

关于表达都柏林核心的DCMI规范的注释™ RDF中的元数据

创作者: 米凯尔·尼尔松
KMR集团,NADA,KTH(皇家理工学院),瑞典
汤姆·贝克
DCMI
发布日期: 2008-01-14
最新版本: //www.voudr.com/specifications/dublin-core/dc-rdf-notes/
发布历史: //www.voudr.com/specifications/dublin-core/dc-rdf-notes/release_history/
说明: 本文件为2008-01-14 DCMI建议“使用资源描述框架(RDF)表达都柏林核心元数据”(以及后续修订版)中引入的关于遗留DCMI规范的变更的实施者提供指南。

目录

  1. 介绍
  2. 出身背景
  3. 对域和范围的支持
  4. 对值字符串的支持
  5. 不推荐的构造
  6. 其他变化
  7. 工具书类

1.导言

2008年1月,DCMI发布了“表达都柏林核心”™ 资源描述框架(RDF)中的元数据”作为DCMI建议[DC-RDF]。本建议取代了两个传统的DCMI文档:

  • 表达简单都柏林核心™ 在RDF/XML[DCMES-XML]中,DCMI于2002年7月提出的建议;
  • 表达合格的都柏林核心™ 在RDF/XML[DCQ-RDFXML]中,DCMI于2002年5月提出了建议。

本文件为2008年建议引入的变更提供了指南。

2.背景

自1997年以来,“都柏林核心区”™ “数据模型”与W3C的资源描述框架(RDF)一起发展抽象模型[ABSTRACT-MODEL],作为DCMI建议于2005年3月发布。DCMI抽象模型(DCAM)现在提供了一个参考模型,该模型基于特定的都柏林核心™ 表达式可以定义。

自DCAM发布以来,架构工作组一直在准备都柏林核心的新表达™ 在RDF中。2006年3月,Mikael Nilsson(瑞典皇家理工学院)于2006年6月完成了2008年关于DCMI公众评论期的建议初稿。根据公众评论期间收到的反馈以及DCMI抽象模型的更新版本,2007年4月编制了新RDF表达式的更新版本供公众评论,并于2008年1月作为DCMI建议最终确定。

新规范代表了都柏林核心发展的重要一步™ RDF表达式与之前的两个规范进行了比较。从历史上看,都柏林核心区™ 以RDF表示的元数据遇到了许多问题,包括:

  • 都柏林核心的两种遗产表达™ RDF中的元数据[DCMES-XML,DCQ-RDF-XML];

  • 上述文档中关于在都柏林核心中使用文字字符串的建议相互矛盾™ 元数据;

  • 由于使用特殊结构,实现复杂;

  • 为都柏林Core提供正式范围和领域的困难™ 财产。

DCAM之前的遗留RDF表达式规范包含与DCAM中的概念不兼容的构造。

2008年1月的规范以下面描述的方式解决了这些问题。

3.对域和范围的支持

2008年1月的建议引入的最重要的变化是增加了对域和属性范围的支持,尤其是对DCMI定义的属性的支持。迄今为止,DCMI元数据术语仅以自然语言定义。DCMI术语集的RDF表达式(例如。,//www.voudr.com/2003/03/24/dces)主要用于以RDF应用程序可接受的形式传达这些英语定义。作为澄清都柏林核心区RDF表达式过程的一部分™ 显然,DCMI将受益于用机器可理解的域和范围声明补充这些英语定义。这种额外的、机器可理解的精度是必要的,就像都柏林核心一样™ 部署在推理引擎和基于本体的应用程序上下文中。2008年1月,DCMI使用委员会最终确定了正式领域和范围的分配,明确了自然语言定义[DOMAIN-RANGE]中的含义;另请参见文件“DCMI元数据条款”[DCMI-Terms],该文件已更新以反映这些更改,以及决策文件“DCMI元数据条款修订”[DCTERMS-CHANGS],其中包含2008年1月规范中引入的DCMI元数据条款的所有更改的详细摘要。

没有文字范围的属性的文字值

对于大多数DCMI元数据术语来说,澄清域和范围的过程是简单明了的,这是可以理解的。但是,遗留元数据使用方面的一个问题非常严重,需要仔细检查。

都柏林核心™ 长期以来,社区一直将简单和合格的都柏林核心区区分开来™ -- 区别体现在“表示简单都柏林核心”的规范之间的差异™ 在RDF/XML中“[DCMES-XML]和”表示合格的都柏林核心™ 在RDF/XML中“[DCQ-RDF-XML]。这两个传统规范在属性(如dc:创建者dc:日期具有非文字资源的值(例如,一个人或一个日期,被视为实体)或表示资源的文字(例如,值字符串)。在“表达简单的都柏林核心”™ 在RDF/XML中,“adc:创建者是一个名字:

dc:创建者“约翰·史密斯”。
字格

在“表达合格的都柏林核心™ 相反,在RDF/XML中dc:创建者是一个实体,如:

dc:创建者

dc:creator\uux:xxx。

_:xxx rdf:type foaf:Person。

_:xxx rdf:value“John Smith”。
资源案例

新的RDF编码规范支持这两种结构,但根据属性的范围选择一种形式而不是另一种形式。具有“文字”范围的属性将遵循前一种模式,而具有“非文字”范围的属性将遵循后一种模式。

根据这种方法,DCMI使用委员会已为DCMI属性分配了适当的范围。一系列的“代理”已提供给术语:创建者dcterms:贡献者,其中“代理人”定义为“采取行动或有权采取行动的资源”。同样,已为其他DCMI术语指定了适当的范围。范围“Literal”仅适用于通常与单个值字符串关联的元数据术语,例如术语:日期dcterms:标识符.

用这个办法,,术语:创建者指可以识别(例如,在授权文件中分配标识符)并以其自身权利描述(例如,名称、隶属关系和出生日期)的实体。这些术语的英语定义证实了这种解释:术语:创建者是“主要负责制造资源的实体”,例如“个人、组织或服务”。然而,与此定义相关的遗留用法注释反映了模糊性:“通常,创建者的名称应用于指示实体”。

在大多数情况下,通过十年的实施实践,术语的适当范围已变得相当明显dc:创建者dc:投稿人,该用法不明确,因此任何特定范围的分配都会使遗留元数据的一部分或另一部分在计算机处理上下文中无效dc:创建者这意味着推断应用程序将期望处理dc:创建者属性作为非文字实体。其中,旧元数据将名称表示为dc:创建者,申请者需要将这些视为“特殊情况”为了将它们与元数据合并,在元数据中,这些名称与预期的非文字实体构造相关联。旧规范没有正确解决这些歧义,导致未知数量的基于都柏林核心的RDF数据与都柏林核心的预期语义不一致™ 财产。

目前,通过分配领域和范围来澄清这些模糊性被认为是确保都柏林核心区长期生存能力的一个可取步骤™ 在RDF中。然而,已经达成了一个重要的妥协:域和范围将仅为http://purl.org/dc/terms/命名空间,包括http://purl.org/dc/elements/1.1/命名空间。因此dc:创建者仍将具有未指定的范围,并且可以与文字值和非文字值一起使用,而术语:创建者将具有代理的(非文字)范围。

对传统都柏林核心的影响™ 元数据

DCMI属性的域和范围声明对于解释遗留都柏林核心具有重要意义™ RDF中的元数据。然而,都柏林核心的诠释™ 其他格式的元数据,如HTML[DCQ-HTML]和XML[DC-XML-GUIDELINES[DC-XML],不会受到这些发展的负面影响。根据DCAM解释这些语法中元数据的规则比RDF简单,因为这些其他语法不受RDF语义的约束。

域和范围的声明有助于澄清DCMI属性的形式语义。元数据创建者需要使用语法结构来确保使用RDF的应用程序正确解释任何值字符串。都柏林核心的产生™ 对于手工生成元数据的人来说,RDF中的元数据变得稍微复杂一些。但是,这些措施消除了当前的模糊性,使元数据能够更一致地映射到DCAM。通过机器可加工的限制,工具的支持得到了改善。为了处理遗留元数据,元数据使用者可能需要“特殊情况”任何包含与受影响的都柏林核心直接关联的值字符串的元数据™ 属性(即,不介入非文字节点)。

4.对值字符串的支持

2008年1月的建议在处理值字符串方面不同于传统的RDF规范。

支持多值字符串

DCAM指定每个值可以在DCAM语句中由多个值字符串表示rdf:值属性``。这允许使用不同语言或使用不同语法编码方案的值字符串作为单个值的表示。

不推荐使用rdfs:标签

值字符串现在使用rdf:值. 使用rdfs:标签对于表示值的字符串不再受支持,因为其定义显然不适合此用途。当然,不禁止使用这些属性,但这些属性不被视为对DCAM有任何特殊解释。

支持RDF数据类型

RDF数据类型现在可以与值字符串一起使用,对应于语法编码方案的DCAM概念。

对于作为对象出现的值字符串rdf:值财产,这是一件简单的事情。

新规范还允许在值为文本时使用数据类型或普通文本作为属性的直接值。

5.不推荐的构造

2008年1月的建议反对2002年5月规范[DCQ-RDF-XML]中描述的几种构造。

不推荐使用RDF容器

RDF容器构造rdf:包,rdf:Altrdf:Seq不再作为构造有序集和无序集的替代方案提供。它们在DCAM中没有对应关系,除非属性的范围包含其中一个类,否则不应再使用它们。

不推荐的构造“穷人的结构化值”

递归使用rdf:值对于结构化值,已弃用。它在DCAM中没有对应关系,也不适合自动处理。因此,不再支持使用此构造。

不推荐的结构“穷人的语言资格”

2002年规范中使用的“穷人语言资格”不符合DCAM,并且没有考虑RDF中普通文本的语言标记。不再支持它。

6.其他变化

删除对“哑巴”的引用

dumb-down算法独立于都柏林核的任何特定表达式™ 元数据(如Dublin Core)™ RDF中的元数据),因此超出了本规范的范围。因此,已删除了对dumb down的引用。

从2008年1月的建议中删除物化

具体化的使用现在被认为不属于规范的范围,因此不再是2008年1月建议的一部分。但是,由于具体化不会干扰元数据本身,因此仍然可以根据RDF规范使用具体化。

从工作草案中删除RDF模式

DCMI属性和类的RDF模式是这些术语定义的一部分,并不专门属于Dublin Core的RDF表达式™ 元数据。它们已从规范草案本身中删除,可以在//www.voudr.com/schemas/rdfs/.与RDF模式匹配的人类可读文档可在[DCMI-TERMS]上获得。

工具书类

抽象模型
抽象模型
<//www.voudr.com/specifications/dublin-core/abstract-model/>
DCMES-XML
表达简单都柏林核心™ 在RDF/XML中
<//www.voudr.com/specifications/dublin-core/dcmes-xml/>
DCQ-RDF-XML
表达合格的都柏林核心™ 在RDF/XML中
<//www.voudr.com/specifications/dublin-core/dcq-rdf-xml/>
DCQ-HTML
表达都柏林核心™ 在HTML/XHTML元和链接元素中
<//www.voudr.com/specifications/dublin-core/dcq-html/>
DC-体系结构
DCMI体系结构工作组
<//www.voudr.com/groups/architecture/>
DC-ARCHITECTURE-LIST
DCMI体系结构工作组邮件列表
<http://www.jiscmail.ac.uk/lists/dc-architecture.html>
DC-RDF
表达都柏林核心™ 使用资源描述框架(RDF)的元数据
<//www.voudr.com/specifications/dublin-core/dc-rdf/2008-01-14/>
DC-XML
表达都柏林核心™ 使用XML的元数据
<//www.voudr.com/specifications/dublin-core/dc-xml/>
DC-XML-2000指南
都柏林核心项目实施指南™ 在XML中
<//www.voudr.com/specifications/dublin-core/dc-xml-guidelines/>
域范围
DCMI属性的域和范围
<//www.voudr.com/specifications/dublin-core/domain-range/2008-01-14/>
DCMI术语
DCMI元数据术语
<//www.voudr.com/specifications/dublin-core/dcmi-terms/2008-01-14/>
DCTERMS-CHANGES
DCMI元数据术语的修订
<//www.voudr.com/usage/decisions/2008/dcterms-changes/>