元数据设计、实现和最佳实践的创新

使用Dublin Core

创造者: 黛安娜Hillmann
发行日期: 2001-04-12
标识符: //www.voudr.com/specifications/dublin-core/usageguide/2001-04-12/
替换: //www.voudr.com/specifications/dublin-core/usageguide/2000-07-16/
替换为: //www.voudr.com/specifications/dublin-core/usageguide/2003-08-26/
最新版本: //www.voudr.com/specifications/dublin-core/usageguide/
翻译: //www.voudr.com/resources/translations/
文件状态: 这是DCMI建议
文件说明: 本文档旨在作为Dublin Core™用户的入门点。对于非专业人员,它将帮助他们为信息资源(例如,电子文档)创建简单的描述性记录。专家可能会发现该文档是都柏林核心文档的有用参考点,因为它在不断变化和发展。

目录

  1. 简介
  • 1.1.什么是元数据?
  • 1.2.什么是都柏林核心?
  • 1.3.本指南的目的和范围
  1. 语法及相关问题
  • 2.1.超文本标记语言
  • 2.2.RDF / XML
  • 2.3.资源包含的元数据
  • 2.4.独立的元数据
  1. 描述元素的基本原则
  • 3.1.元素内容和受控词汇
  1. 核心元素

  2. 限定符

  • 5.1.限定词的类别
  • 5.2.简化原则
  1. 例子

7.术语表
8.阅读资料及参考资料

1.简介

1.1.什么是元数据?

自从第一位图书管理员在一架手写卷轴上列出项目清单以来,元数据就一直伴随着我们。“meta”这个词来自一个希腊单词,意思是“在旁边,在后面,下一个”。更近代的拉丁语和英语使用“meta”来表示超越自然的事物。因此,元数据可以被认为是关于其他数据的数据。它是互联网时代的术语,指的是图书馆员传统上放入目录中的信息,最常见的是指关于Web资源的描述性信息。

元数据记录由一组属性或元素组成,这些属性或元素是描述相关资源所必需的。例如,图书馆常见的元数据系统——图书馆目录——包含一组元数据记录,其中包含描述书籍或其他图书馆项目的元素:作者、标题、创建或出版日期、主题覆盖范围以及指定项目在书架上位置的书号。

元数据记录和它所描述的资源之间的链接可以采用以下两种形式之一:

  1. 元素可以包含在与条目分离的记录中,如图书馆的目录记录;或
  2. 元数据可以嵌入到资源本身中。

与资源本身一起携带的嵌入式元数据的例子包括印刷在图书标题页背面的出版编目(CIP)数据;或电子文本中的TEI标题。目前使用的许多元数据标准,包括Dublin Core™标准,都没有规定任何一种类型的链接,将决策留给每种特定的实现。

尽管元数据的概念早于因特网和Web,但随着电子出版和数字图书馆的增加,以及随之而来的由大量无差别的在线数字数据所导致的“信息过载”,全世界对元数据标准和实践的兴趣已经爆发。任何试图使用当今流行的Web搜索服务之一在线查找信息的人都可能经历过检索数百个(如果不是数千个的话)“点击”的挫败感,而改进或进行更精确搜索的能力有限。对电子资源的描述性标准和实践的广泛采用将改善从“互联网公共资源”中检索相关资源。正如元数据开发领域的两位领导者Weibel和Lagoze所指出的:

“标准化的描述性元数据与网络化对象的关联,通过支持基于字段的(例如,作者,标题)搜索,允许对非文本对象进行索引,并允许访问与访问资源本身内容不同的代理内容,有可能大大提高资源发现能力。”(韦贝尔和拉各兹,1997)

Dublin Core™解决的正是对“标准化描述性元数据”的需求。

1.2.什么是都柏林核心?

Dublin Core元数据标准是一个简单而有效的元素集,用于描述广泛的网络资源。Dublin Core™标准包括15个元素,其语义是由来自图书馆学、计算机科学、文本编码、博物馆社区和其他相关学术领域的专业人士组成的国际跨学科小组通过共识建立的。

另一种看待Dublin Core™的方式是将其视为“用于对资源进行特定类别陈述的小型语言”(2000年贝克,).在这种语言中,有两类术语——元素(名词)和限定词(形容词)——它们可以被安排成一个简单的语句模式。在这种语言中,资源本身就是隐含的主语。在多样化的互联网世界中,Dublin Core™可以被视为“数字游客的元数据混杂语”:容易掌握,但不一定能表达复杂的关系或概念。

第4节概述了Dublin Core™元素集。每个元素都是可选的,可以重复。每个元素还有一组限定符,这些属性可用于进一步细化(而不是扩展)元素的含义。Dublin Core™元数据计划(DCMI)定义了使用各种类型的限定符“限定”元素的标准方法。一套推荐的限定符符合DCMI“最佳实践”,并有正式的注册。

尽管Dublin Core™倾向于类似文档的对象(因为传统文本资源很容易理解),但它也可以应用于其他资源。它是否适合用于特定的非文档资源,在某种程度上取决于它们的元数据与典型文档元数据的相似程度,以及元数据的目的是什么。(对使用Dublin Core™获取不同资源感兴趣的实现者可以浏览都柏林核心™项目页面以了解如何使用Dublin Core™元数据作为资源。)

Dublin Core™的目标有以下特点:

创建和维护的简单性

Dublin Core™元素集一直保持尽可能小和简单,以允许非专业人员轻松和低成本地为信息资源创建简单的描述性记录,同时提供在网络环境中对这些资源的有效检索。

通常理解的语义

从一个知识领域到另一个知识领域,术语和描述实践的差异阻碍了在互联网上广阔的公共空间中发现信息。Dublin Core™可以通过支持一组通用元素来帮助“数字游客”(非专业搜索者)找到他或她的方向,这些元素的语义被普遍理解和支持。例如,科学家们关注的是某个作者的文章的位置,而艺术学者对某个艺术家的作品感兴趣,他们可以就“创作者”元素的重要性达成一致。在公共元素集上的这种收敛(如果稍微泛型一些)增加了所有资源的可见性和可访问性,无论是在给定规程之内还是在给定规程之外。

国际范围内

Dublin Core™元素集最初是用英语开发的,但正在用英语创建版本许多其他语言包括芬兰语、挪威语、泰国语、日语、法语、葡萄牙语、德语、希腊语、印尼语和西班牙语。多语言都柏林核心™特别兴趣小组正在协调努力,使用语言将这些版本链接到分布式注册表中资源描述框架万维网联盟正在开发的技术(W3C).

尽管Dublin Core™开发社区还没有直接解决万维网国际化的技术挑战,但来自几乎每个大陆的代表的参与确保了标准的开发考虑了电子信息世界的多语言和多文化性质。

可扩展性

在平衡描述数字资源的简单性和精确检索需求的同时,Dublin Core™开发人员已经认识到提供一种机制来扩展DC元素集以满足额外的资源发现需求的重要性。预计其他元数据专家社区将创建和管理额外的元数据集。来自这些集的元数据元素可以与Dublin Core™元数据相链接,以满足可扩展性的需求。该模型允许不同的社区使用DC元素作为核心描述性信息,这些信息将在整个Internet上可用,同时允许在更有限的领域内有意义的特定领域的添加。目前正在制订实施这种模式的具体指示。

1.3.本指南的目的和范围

本文档旨在成为Dublin Core™用户的入门点。对于非专业人员,它将帮助他们为信息资源(例如,电子文档、JPEG图像、视频剪辑)创建简单的描述性记录。专家可能会发现该文档是都柏林核心文档的有用参考点,因为它在不断变化和发展。

该指南将以非技术的方式展示Dublin Core™元数据如何被任何人使用以使其材料更易于访问。本指南讨论Dublin Core™元数据元素的布局和内容,如何在组成完整的Dublin Core™元数据记录时使用它们,以及如何限定元素以支持各种社区的使用。

本文档的另一个重要目标是促进使用Dublin Core™元素集描述资源的“最佳实践”。Dublin Core™社区认识到,创建元数据的一致性是在不同的描述记录来源之间实现完整检索和可理解显示的重要关键。不一致的元数据有效地隐藏了所需的记录,导致搜索结果不均匀、不可预测或不完整。

2.语法问题

在本指南中,我们选择了几种不同的语法来表示Dublin Core™示例,包括:HTML (Web的超文本标记语言格式),RDF/XML(使用可扩展标记语言的资源描述框架)和通用形式(Element="value")。HTML提供了一种易于理解的格式来演示Dublin Core的底层概念,但是使用限定的更复杂的应用程序可能会发现使用RDF/XML更有意义。在考虑合适的语法时,重要的是要注意,Dublin Core™概念几乎同样适用于任何文件格式,只要元数据采用适合搜索引擎和人类解释的形式。

2.1.超文本标记语言

“用HTML编码Dublin Core™元数据”(Kunze, 1999)提供了使用不合格Dublin Core的HTML的指导,无论元数据是嵌入在资源中还是在一个单独的文件中。

HTML也可以用来表示合格的Dublin Core,尽管这样做有一些固有的限制。目前关于如何最好地做到这一点的想法载于工作草案:在HTML元元素中记录合格的Dublin Core™元数据

2.2.RDF / XML

RDF(资源描述框架)允许人类读取多个元数据方案,也可以由机器解析。它使用XML(可扩展标记语言)来表示结构,从而允许元数据社区定义实际的语义。这种去中心化的方法认识到没有一个方案适合所有的情况,而且方案需要一个独立于中央权威的链接机制来帮助描述、识别、理解、可用性和/或交换。

RDF允许在不指定所需细节的情况下描述多个对象。底层的粘合剂XML只要求定义所有的名称空间,一旦定义了名称空间,就可以根据元数据提供者的需要使用它们。

例如:

  玫瑰丛 玫瑰种植指南 描述种植和培育不同种类玫瑰丛的过程。 2001-01-20  

这个简单的示例使用Dublin Core™来描述种植玫瑰丛指南的音频记录。使用XML和RDF, Dublin Core™现在可以与其他元数据词汇表混合使用。例如,上面简单的Dublin Core™描述可以与其他词汇表一起使用,例如可以描述作者的隶属关系和联系信息的vCard,或者更专业的“玫瑰描述”词汇表,可以更详细地描述玫瑰丛。

2.3.资源包含的元数据

一些使用Dublin Core™的实现选择将元数据嵌入到资源本身中。这种方法最常用于使用HTML编码的文档,但有时也可以用于其他类型的文档。开发了一些简单的工具,可以相当容易地在HTML编码的页面中提供Dublin Core™元数据。一个这样的工具,DC.dot,从HTML文档中提取元数据信息,并将其格式化以便进行编辑,然后剪切并粘贴回原始文档的HTML头中。

2.4.独立的元数据

独立元数据可以存在于任何类型的数据库中,通常提供到所述资源的链接。这种方法对于许多非文本资源可能是最实用的,并且越来越多地用于文本,主要用于支持更容易维护和共享元数据。

3.描述元素的基本原则

每个元素都是可选的和可重复的。元数据元素可以以任何顺序出现。同一元素多次出现的排序(例如,Creator)可能具有提供者想要的意义,但不能保证在每个用户环境中都保持排序。例如,RDF/XML支持排序,但HTML不支持。

3.2.元素内容和受控词汇

一些元素的内容数据可以从“受控词汇表”中选择,“受控词汇表”是一组有限的一致使用和仔细定义的术语。这可以极大地改善搜索结果,因为计算机擅长逐字匹配单词,但不擅长理解人们使用不同单词指代一个概念的方式,即同义词。如果没有基本的术语控制,不一致或不正确的元数据会严重降低搜索结果的质量。例如,如果没有受控词汇,“candy”和“sweet”可能指的是同一个概念。在记录元数据时,受控词汇表还可以减少拼写错误的可能性。

控制词汇的成本之一是需要一个管理机构来审查、更新和传播词汇。例如,美国国会图书馆的主题标题(LCSH)和美国国家医学图书馆的医学主题标题(MeSH)是正式的词汇表,对于搜索严格编目的馆藏是不可或缺的。然而,两者都需要重要的支持组织。另一个成本是必须训练元数据的搜索者和创建者,以便他们知道在使用MeSH时输入“心肌梗死”,而不是更通俗的“心脏病发作”。

使用限定符可以最有效地使用受控词汇表。

4.核心元素

本节按全称和标签列出每个Core元素。对于每个元素都有一个引用描述(dcm 1.1),并有指引来协助创建元数据内容,无论是“从零开始”完成,还是将现有记录转换为另一种格式。链接到示例和推荐都柏林核心™资格赛还提供了每个元素。

这些元素是按照它们被开发的顺序列出的,但是还有其他有用的方法来对它们进行分组。在下面的表中,您可以看到一些元素与项目的内容相关,一些与作为知识产权的项目相关,还有一些与项目的特定实例化或版本相关。

内容 知识产权 实例化
报道 贡献者 日期
描述 创造者 格式
类型 出版商 标识符
关系 权利 语言
主题
标题
# # 5。限定符5.1限定符的类

2000年7月,Dublin Core™元数据计划发布了它的推荐列表都柏林核心™资格赛.在批准这些限定词时,DCMI认可了两大类限定词:

  • 元素细化。这些限定符使元素的含义更窄或更具体。精炼的元素具有不合格元素的含义,但范围更有限。不理解特定元素细化术语的客户端应该能够忽略限定符,并将元数据值视为未限定的(更广泛的)元素。限定符的元素细化术语的定义必须是公开可用的。
  • 编码方案。这些限定符标识有助于解释元素值的模式。这些方案包括受控词汇表和形式符号或解析规则。因此,使用编码方案表示的值将是从受控词汇表中选择的标记(例如,来自分类系统或主题标题集的术语)或按照正式符号格式化的字符串(例如,“2000-01-01”作为日期的标准表达式)。如果客户端或代理不理解编码方案,则该值对人类读者可能仍然有用。限定符编码方案的最终描述必须明确标识,并可供公众使用。

5.2降噪原理

使用限定符作为额外的详细级别引入了这样一种情况,即客户机可能遇到使用Dublin Core™描述的资源集合,这些资源具有客户机应用程序不知道的限定符。这可能是因为客户端不支持限定符而集合支持限定符,或者集合支持实现者为特定的本地或域需求开发的专用限定符。

对这些描述的有用解释将依赖于忽略未知限定符的能力,并依赖于元素的非限定形式的更广泛含义。Dublin Core™元素限定的指导原则,也称为“Dumb-Down原则”,即客户应该能够忽略任何细化并使用描述,就好像它是不合格的一样。虽然这可能会导致某些特定含义的丢失,但其余元素值(减去限定词)必须继续保持一般正确。

6.术语表

7.背景阅读及参考资料