元数据设计,实施和最佳实践的创新

关于DC-DS-XML XML格式的说明

创造者: 皮特约翰斯顿
英国Eduserv基金会
发行日期: 2008-09-01
最新版本: //www.voudr.com/specifications/dublin-core/dc-ds-xml-notes/
发布历史: //www.voudr.com/specifications/dublin-core/dc-ds-xml-notes/release_history/
描述: 本文档描述了使用XML表示都柏林核心描述集(DC-DS-XML)的开发背景,以及它与《在XML中实现都柏林核心描述集指南》(2003-04-02)的关系。

目录

  1. 介绍
  2. 背景
  3. DC-DS-XML XML格式
  4. DC-DS-XML,XML名称空间和DCMI命名空间策略
  5. DC-DS-XML和dc - xml - 2003

1.介绍

2008年9月,DCMI发布了该文件使用XML (DC-DS-XML)表达Dublin Core™描述集[DC-DS-XML]作为DCMI提出的建议。它取代了先前循环的工作草案使用XML表示Dublin Core™[DC-XML-2006]。

本文档介绍了建议推荐DC-DS-XML的开发的背景,概述了它提供的功能,并描述其与其他DCMI规范的关系。

2.背景

2.1 DCMI抽象模型

自2003年以来,DCMI一直在寻求将其Dublin Core™元数据模型形式化,这导致了DCMI抽象模型[Abstract - model]的发布,其第二个版本在2007年6月给出了DCMI推荐的状态。

抽象模型定义了一个名为a的抽象信息结构描述集.以便应用程序存储或交换DC元数据描述集,这些信息结构的实例必须根据格式或语法规则以某种具体的数字形式表示。DCMI抽象模型本身并没有定义任何表示DC元数据的具体格式或语法描述集;DCMI缺少对其的规格系列的角色是指“编码指南”。

这样的规范执行三个功能:

  • 它定义了DCAM描述设置模型的功能的特征子集

  • 它描述了DCAM的每个受支持的构造和组件描述集在具体格式中是“编码”

  • (相反地)它描述了如何将格式的特性解释或“解码”为表示DCAM的构造和组件描述集

“编码指南”的作用及其与DCMI抽象模型的关系,在DC-2007会议[SYNTAXTUT]中介绍的“基本语法”教程中以图形方式进行了说明。

2.2使用XML表达Dublin Core™

为了代表DC元数据描述集在XML文档中,描述集的构造和组件必须表示为XML文档中的组件,即XML元素和XML属性、XML元素名称和XML属性名称、XML元素内容和XML属性值。

使用XML表达DC元数据的当前DCMI推荐,用XML实现Dublin Core™的指南[DC-XML-2003]没有满足这些要求,因为它在DCMI抽象模型的开发之前就已经存在了。(DC-XML-2003格式与DCMI抽象模型的关系将在下面的第5节和附录A中进一步讨论。)

2006年6月,《工作草案》使用XML表示Dublin Core™元数据[DC-XML-2006]已公开征求公众意见。结果收到的评论,DCMI架构内随后的讨论论坛,继续并行工作草案为两个不同的XML格式,一个支持完整描述集模型的抽象模型,称为“DC-XML-Full”,另一只支持该模型的一个子集,称为“DC-XML-Min”。两种格式的草案都在2007年进行了更新,以反映对DCMI抽象模型所做的更改。

在DC-2007会议的DCMI架构论坛会议和随后的电视电话会议上进行讨论后,决定提出“DC-XML-Full”格式的修改版本作为建议:这种格式现在被称为“DC-DS-XML”(其中“DS”是“description Set”的缩写),并在文档中进行了描述使用XML (DC-DS-XML)表达Dublin Core™描述集[DC-DS-XML]。

在DCMI架构论坛中继续工作,请识别用于在XML中表示DC元数据的其他XML格式的要求。

2.3使用RDF表达Dublin Core™

同样在2008年1月,DCMI发布了该文件使用资源描述框架(RDF)表达Dublin Core™[DC-RDF]作为DCMI推荐。本文档描述了如何使用RDF模型表示DCMI抽象模型描述集模型的特性,并替换了先前的DCMI规范以RDF表示DC元数据。

2.4从方言中收集资源描述(GRDDL)

语言方言(GRDDL)的收集资源描述[Grddl]是一个W3C推荐,它描述了一组公约,用于将XML文档与来自该文档的一组RDF三倍提取的算法相关联。由GRDDL定义的机制之一是它将命名空间转换与XML命名空间名称称为的关联,以便可以应用转换来从任何文档中提取RDF三级,该文档在其根元素的名称中使用该XML命名空间名称.

2.5都柏林核心™元数据的互操作性水平

DCMI架构论坛目前正在制定题为的文件草案Dublin Core™元数据的互操作性水平[直流级]。

它描述了可以使用DC元数据启用的互操作性的几个不同类别或“级别”,并为每个级别指定了元数据提供者应该满足的需求(以及元数据使用者可以期望得到满足的期望)。

3. DC-DS-XML格式(2008)

拟议推荐中描述的当前DC-DS-XML格式出现在上面列出的几个发展中,直接塑造。

DC- ds - xml格式的主要目的是通过提供将格式实例解释为DC描述集的规则,实现“级别”文档所称的“基于dcam的语法互操作性”(“级别3”互操作性)。

基于RDF模型,这是一个先决条件是支持“语义互操作性”(“级别2”互操作性)。因此,格式还提供了用于将格式的实例解释为RDF图表的规则,使用DCMI建议书中指定的约定在RDF [DC-RDF]中表示DC元数据的约定。此外,它提供了一种算法,其以GRDDL命名空间变换的形式实现到RDF图的算法。

设计DC-DS-XML格式时所采用的原则在文件的引言部分进行了描述:

  • 该格式应提供抽象模型的“描述集模型”的所有功能的序列化,即,应该表示构成DC元数据描述集的所有构造。

  • DCAM的“词汇表模型”的特性不需要使用这种格式。例如,不需要表示属性之间的子属性关系、类之间的子类关系等。

  • 该格式应易于使用基于XPL的规范,例如XPath,Xpointer和XQuery,即,对于DCAM中的每个构造,应该有一个映射到XML语法中的一个构造。

  • 格式不应依赖于单个XML模式语言的功能。

  • 应该可以使用W3C XML Schema [XMLSCHEMA]来描述这种格式。当使用该格式序列化符合DC应用程序概要[DCAP]的描述集时,并不是要求使用W3C XML Schema捕获对应的描述集概要[DSP]中表达的所有结构约束。

DC- ds -XML格式提供了一种用于序列化DC的“基本”XML格式描述集:满足了提供支持完整描述集模型的XML序列化的基本要求,可以直接使用XML技术进行处理。它并不打算成为DC元数据的唯一XML格式:并不建议它取代当前的DCMI推荐标准,用XML实现Dublin Core™的指南[DC-XML-2003]。除了DC-DS-XML格式之外,DCMI架构论坛还在继续识别用于序列化的其他XML格式的要求描述集

3.1 DC-DS-XML的XML模式

可提供DC-DS-XML格式的W3C XML模式草案。当前版本的模式的URI是//www.voudr.com/schemas/xmls/2008/09/01/dc-ds-xml/dcds.xsd

3.2用于DC-DS-XML的GRDDL命名空间转换

用于DC-DS-XML格式的GRDDL命名空间转换,以XSLT样式表的形式可用,该表单将DC-DS-XML实例转换为RDF / XML。当前版本的变换的URI是http://purl.org/dc/transform/2008/09/01/dc-ds-xml-20080901-grddl/dcds2rdfxml.xsl.

GRDDL应用程序可以通过解除引用XML命名空间名称获得的“命名空间文档”来访问转换http://purl.org/dc/xmlns/2008/09/01/dc-ds-xml/

N.B.XSLT变换目前正在进行工作,并且在当前版本中不支持DC-DS-XML格式存在一些方面。

4. DC-DS-XML,XML命名空间和DCMI命名空间策略

DCMI建议书DCMI命名空间策略描述DCMI用于将uri分配给元数据的约定条款由DCMI拥有和管理,并收集这些术语URIS., 称为是DCMI名称空间以及它与那些员工联系的政策承诺DCMI术语uriDCMI名称空间uri,特别是关于他们的持久性。

命名空间政策文档目前没有处理XML命名空间名称的情况。对DC-DS-XML格式的建议定义了一个名称(URI)的XML命名空间http://purl.org/dc/xmlns/2008/09/01/dc-ds-xml/

几点值得注意:

  • 目前的XML命名空间名称的选择是临时的,并且可能在后续版本的规范中发生变化。

  • 提出了一个purl,而不是www.voudr.com uri;如果认为合适,可以更改以利用Dublincore.org URI。

  • URI是“DATE-BROPED”。这是为了允许XML格式的更改,如果需要,XML格式导致XML命名空间名称的更改,尽管也可能更改不需要XML命名空间名称中更改的格式。

DCMI拥有的XML命名空间名称的约定和策略是DCMI架构论坛的一个讨论主题,目的是扩展命名空间策略文档来解决这个问题。

5.DC-DS-XML和dc - xml - 2003

使用XML表达DC元数据的当前DCMI推荐,用XML实现Dublin Core™的指南[DC-XML-2003]不是根据DCAM描述集模型或RDF图定义的。它为“简单DC记录”和“限定DC记录”提供了自己的“抽象模型”,并指定了一种XML格式来表示这两个模型的实例。

从映射到RDF图和DCAM描述集的构造的角度对DC-XML-2003格式的任何解释都必须回顾性地构建。DC-XML-2003格式设计的局限性意味着,任何这样的映射充其量都是近似的,因为它所依赖的假设可能不能准确反映元数据创建者的意图,而且只能针对该格式的某些特性进行。附录A描述了这种建议的DC-XML-2003格式的映射。

由两种XML格式支持的DCAM描述设置模型的功能 - DC-XML-2003(在附录A中提出的解释)和DC-DS-XML的基础上 - 总结在下表中:

DCAM描述集型号特性 DCAM描述集型号支持 支持直流- xml - 2003 支持DC-DS-XML
描述集 一个描述集 一个描述集 一个描述集
描述 一对多描述 一个描述 一对多描述
描述资源URI 每一个描述;任何URI 不支持 每一个描述;任何URI
陈述 每个描述的一对多陈述 每个描述的一对多陈述 每个描述的一对多陈述
物业URI. 每一个报表;任何URI 每一个报表;任何URI 每一个报表;任何URI
字面价值替代 每一个声明 每一个报表;部分支持 每一个声明
文字值代理程序/值字符串 每个字面值代理符一个 每个字面值代理符一个;部分支持 每个字面值代理符一个
文字值代理程序/值字符串语言 每个值字符串零键 每个值字符串零键 每个值字符串零键
字面值代理符/ SES URI 每个值字符串零键 不支持 每个值字符串零键
非文字价值代理 每一个声明 不支持 每一个声明
非文字价值代理/值字符串 零对许多非文字价值代理 不支持 零对许多非文字价值代理
非文字价值代理/值字符串语言 每个值字符串零键 不支持 每个值字符串零键
非文字值代理符/ SES URI 每个值字符串零键 不支持 每个值字符串零键
非文字值代理/值URI 每个非文字价值替代零点 不支持 每个非文字价值替代零点
非文字值代理符/ VES URI 每个非文字价值替代零点 不支持 每个非文字价值替代零点

附录A:用XML实现Dublin Core™的指南(DC-XML-2003)和DCMI抽象模型

使用XML表达DC元数据的当前DCMI推荐,用XML实现Dublin Core™的指南(DC-XML-2003)预先描述了DCAM的开发。该文档为“简单的Dublin Core™Metadata Record”提供了自己的“抽象模型”,以及“合格的Dublin Core™Metadata Record”,并指定这两个模型的实例的表示的XML格式。

但是,该文档描述的两个模型与DCAM提供的描述集模型不同:它们使用一些不同类型的构造,与DCAM使用的构造不同,并且对本质上与DCAM使用的构造相似的构造使用不同的标签。

A.1简单的Dublin Core™(DC-XML-2003)

DC-XML-2003提供的“简单Dublin Core™记录”的“抽象模型”是:

  • 一个简单的Dublin Core™记录由一个或多个属性及其关联值组成。

  • 每个属性都是所描述的资源的属性。

  • 每个属性必须是15个DCMES [DCMES]元素之一。

  • 属性可能会重复。

  • 每个值都是一个字面值字符串。

  • 每个字面值字符串值可能有一个相关的语言(例如en-GB)。

注意,这个模型比的模型简单得多描述集由DCMI抽象模型定义。特别是

  • 它没有类似于这一点的构造描述集

  • 它没有类似于这一点的构造描述资源URI

  • 它限制财产Uris.到一组固定的uri

  • 它没有类似于它之间的区别非文字价值代理和一个字面价值替代

  • 它没有类似于这一点的构造语法编码方案URI

  • 它没有类似于这一点的构造URI值

  • 它没有类似于这一点的构造词汇编码方案URI

  • 它没有类似于a的概念非文字价值代理可能包括多个价值字符串

仅根据“简单DC记录”模型的描述,不可能确定一个(简单DC记录)“价值”对应:

  • 一个字面价值替代包含A.值字符串

  • 一个非文字价值代理包含A.值字符串

要从“简单DC记录”模型构建映射到DCAM描述设置模型的(子集),必须在这两个选项之间进行选择。

如果一个假设“简单的DC记录”模型中的意图是捕获的(根据抽象模型而言),陈述包含字面价值代理人,则下表指定了“简单DC记录”模型与描述集模型,使得由此产生的断言描述集对应于“简单DC记录”所做的断言。

DC-XML-2003 dcam.
“简单的直流记录” 描述集包含一个描述
“房地产+价值” 陈述
“财产的乌里” 物业URI.
“价值” 字面价值替代/值字符串
“语言” value字符串语言

A.2 Qualified Dublin Core™(DC-XML-2003)

DC- xml -2003提供的“合格DC记录”的“抽象模型”是:

  • 合格的DC记录由一个或多个属性及其关联值组成。

  • 每个属性都是所描述的资源的属性。

  • 每个属性必须是:

    • 15个DC元素中的一个,

    • DCMI(例如受众)建议的其他元素之一[DCTERMS],

    • DCMI元数据术语建议[DCTERMS]中列出的元素细化之一。

  • 属性可能会重复。

  • 每个值都是一个字面值字符串。

  • 每个值可以具有相关的编码方案。

  • 每个编码方案都有一个名称。

  • 每个字面值字符串值可能有一个相关的语言(例如en-GB)。

这是一个比描述集由DCMI抽象模型定义。如上所述

  • 它没有类似于这一点的构造描述集

  • 它没有类似于这一点的构造描述资源URI

  • 它限制财产Uris.到一组固定的uri

  • 它没有类似于它之间的区别非文字价值代理和一个字面价值替代

  • 它没有类似于这一点的构造语法编码方案URI

  • 它没有类似于这一点的构造URI值

  • 它没有类似于这一点的构造词汇编码方案URI

  • 它没有类似于a的概念非文字价值代理可能包括多个价值字符串

对于“合格的直流记录”模型,将映射到DCAM描述设置模型的构建更为问题。

至于“简单的直流记录”案例,没有区别字面价值替代非文字价值代理.因此,如上所述,仅根据“合格DC记录”模型的描述,是不可能确定一个(合格DC记录)“价值”对应:

  • 一个字面价值替代包含A.值字符串

  • 一个非文字价值代理包含A.值字符串

此外,“合格的直流记录”模型介绍了“编码方案”的概念,但不区分词汇编码方案URI语法编码方案URI,但不能确定(合格DC记录)的组合是否value和encoding scheme分别为:

  • 一个字面价值替代包含A.值字符串语法编码方案URI

  • 一个非文字价值代理包含A.值字符串语法编码方案URI

  • 一个非文字价值代理包含A.值字符串词汇编码方案URI

如果一个人做出与“简单DC记录”情况相同的假设,“合格DC记录”模型的意图是捕获(就抽象模型而言),陈述包含字面价值代理人然后,只有三个选项中的第一个可以解释“编码方案”。但是,DC-XML-2003规范中的示例包括对“编码方案”的引用词汇编码方案所以“编码方案”的映射到语法编码方案在所有情况下都不是正确的。似乎唯一的“安全”选项似乎不是为DC-XML-2003“编码方案”的映射。

在此基础上,下表指定了“合格DC记录”模型和描述集模型,使得由此产生的断言描述集对应于“合格DC记录”所作的断言。

DC-XML-2003 dcam.
“合格的直流记录” 描述集包含一个描述
“房地产+价值” 陈述
“财产的乌里” 物业URI.
“价值” 字面价值替代/值字符串
“编码方案的URI” 没有映射
“语言” value字符串语言

有些要点要注意

  • 这种映射的回顾创建必须是近似的

  • 这里没有提供映射,用于DC-XML-2003调用“编码方案”。

  • “值”到a的映射字面价值替代/值字符串可能与原始模型背后的意图不兼容,其中意图似乎是支持a字面价值替代/值字符串或者一个非文字价值代理/值字符串或者一个非文字价值代理/URI值

  • “值”到a的映射字面价值替代/值字符串可能会引入从物业范围产生的矛盾。

参考文献

(抽象模型)
DCMI抽象模型DCMI推荐标准。2007-06-04
//www.voudr.com/specifications/dublin-core/abstract-model/2007-06-04//2007-06-04/

[DC-DS-XML]
使用XML (DC-DS-XML)表达Dublin Core™描述集DCMI拟议的建议。2008-09-01
//www.voudr.com/specifications/dublin-core/dc-ds-xml/2008-09-01/

(DC-HTML)
使用HTML/XHTML表达Dublin Core™关联元素DCMI推荐标准。2008-08-04
//www.voudr.com/specifications/dublin-core/dc-html/2008-08-04/

(DC-LEVELS)
Dublin Core™元数据的互操作性水平
//www.voudr.com/architecturewiki/InteroperabilityLevels

[DC-RDF]
使用资源描述框架(RDF)表达Dublin Core™元数据DCMI推荐标准。2008-01-14
//www.voudr.com/specifications/dublin-core/dc-rdf/2008-01-14/

[dc-text]
使用DC-Text格式表达Dublin Core™元数据DCMI推荐资源。2007-12-03
//www.voudr.com/specifications/dublin-core/dc-text/2007-12-03/

[DC-XML-2003]
用XML实现Dublin Core™的指南DCMI推荐标准。2003-04-02
//www.voudr.com/specifications/dublin-core/dc-xml-guidelines/2003-04-02/

(dc - xml - 2006)
使用XML表示Dublin Core™元数据DCMI工作草案。2006-05-29
//www.voudr.com/specifications/dublin-core/dc-xml/2006-05-29/

[dcap]
Dublin Core™应用程序配置文件的新加坡框架DCMI推荐资源。2008-01-14
//www.voudr.com/specifications/dublin-core/singapore-framework/2008-01-14/

[DCMES]
Dublin Core™元数据元素集,版本1.1DCMI推荐标准。2008-01-14
//www.voudr.com/specifications/dublin-core/dces/2008-01-14/

(使用dc)
DCMI元数据术语DCMI推荐标准。2008-01-14
//www.voudr.com/specifications/dublin-core/dcmi-terms/2008-01-14/

[dcmi-namespace]
Dublin Core™元数据计划(DCMI)的命名空间策略DCMI推荐。2007-07-02
//www.voudr.com/specifications/dublin-core/dcmie-namespace/2007-07-02/

[域]
DCMI属性的域和范围
//www.voudr.com/specifications/dublin-core/domain-range/2008-01-14/

[DSP]
描述设置概要文件:都柏林核心™应用程序概要文件的约束语言DCMI工作草案。2008-03-31
//www.voudr.com/specifications/dublin-core/dc-dsp/2008-03-31//dc-dsp/2008-03-31/

(GRDDL)
语言方言(GRDDL)的收集资源描述W3C建议2007年9月11日
http://www.w3.org/tr/2007/rec-grddl-20070911/

(REV-TERMS)
对DCMI元数据项的修订
//www.voudr.com/usage/decisions/2008/dcterms-changes/

[RFC3986]
Berners-Lee,T.,R. Fielding,L. Masinter。RFC 3986:统一资源标识符(URI):通用语法。互联网工程工作组(IETF)。2005年1月。
http://www.ietf.org/rfc/rfc3986.txt.

(SYNTAXTUT)
DCMI基本语法教程DC-2007,新加坡
http://www.dc2007.sg/T2-BasicSyntaxes.pdf

[XMLSchema]
XML Schema第0部分:底漆第二版.W3C建议2004年10月28日。
http://www.w3.org/tr/2004/rec-xmlschema-0-20041028/