元数据设计、实施和最佳实践方面的创新

使用都柏林核心

创作者: diane_hillman
发行日期: 2005-11-07
最新版本: //www.voudr.com/specifications/dublin-core/usageguide/
发布历史: //www.voudr.com/specifications/dublin-core/usageguide/release_history/
描述: 本文档旨在作为Dublin Core的用户的入口点。对于非专家来说,它将帮助它们创建用于信息资源的简单描述性记录(例如,电子文件)。专家可能会发现文档是对都柏林核心文档的有用点,因为它变化并增长。

注意:本文档从2001年到2005年维护,作为Dublin Core™新用户的入学点,希望为信息资源(例如,电子文件)创建简单的描述性记录,并作为专家的准备参考文档。它已被取代最近的指导材料

目录

1.介绍

2.语法、存储和维护问题

3.元素内容和受控词汇表
4.要素
5.都柏林核心™限定符
6.附录,角色
7.词汇表
8.参考书目

1.介绍

1.1.元数据是什么?

自从第一个图书管理员在一架手写卷轴上列出物品清单以来,元数据就一直与我们同在。术语“meta”来自于一个希腊词,意为“旁边,与,之后,下”。更近代的拉丁语和英语用法会使用“meta”来表示超然的或超越自然的东西。元数据可以被认为是关于其他数据的数据。它是一个互联网时代的术语,指的是图书馆员传统上放入目录的信息,它通常指的是关于网络资源的描述性信息。

元数据记录由一组属性或元素组成,以描述所讨论的资源所必需的。例如,库中公共的元数据系统 - 库目录 - 包含一组元数据记录,其中元素描述了一本书或其他库项:作者,标题,创建或发布,主题覆盖和呼叫号码指定架子上的项目的位置。

元数据记录和它所描述的资源之间的链接可能采取两种形式之一:

  1. 元素可以包含在与项目分开的记录中,如在库的目录记录的情况下;要么
  2. 元数据可以嵌入到资源本身中。

与资源本身一起携带的嵌入式元数据的示例包括在书籍标题页面上印刷的发布(CIP)数据的编目;或者在电子文本中的TEI标题。今天使用的许多元数据标准,包括Dublin Core™标准,不规定任何类型的联系,将决定留给每个特定实现。

虽然元数据的概念早于互联网和Web,但随着电子出版和数字图书馆的增加,以及在线上可获得的大量无差别数字数据所带来的随之而来的“信息超载”,全世界对元数据标准和实践的兴趣已经爆炸式增长。任何试图使用当今流行的Web搜索服务在网上查找信息的人,都可能经历过检索数百个(如果不是数千个的话)“点击”的挫折,而细化或进行更精确搜索的能力有限。广泛采用电子资源的描述标准和做法,将改善在任何信息检索至关重要的场所检索相关资源的情况。正如元数据开发和数字图书馆领域的两位领导者Weibel和Lagoze所指出的:

"The association of standardized descriptive metadata with networked objects has the potential for substantially improving resource discovery capabilities by enabling field-based (e.g., author, title) searches, permitting indexing of non-textual objects, and allowing access to the surrogate content that is distinct from access to the content of the resource itself." (Weibel and Lagoze, 1997)

在过去几年中,我们还看到Dublin Core™元数据在更封闭环境中的应用增加。有一条实施,其中Dublin Core™元数据用于描述由公司,政府和国际组织拥有或生产的资源,以支持门户服务或内部知识管理。还有在Dublin Core™元数据用作支持元数据集合的公共交换格式,例如打开存档计划的情况。在这些情况下,如在Web的开放环境中,标准化描述性元数据的概念提供了一种强大的机制,以改善特定应用程序和特定用户社区的检索。这需要“标准化描述性元数据”,即都柏林核心™地址。

1.2。什么是都柏林核心?

Dublin Core™元数据标准是一个简单而有效的元素集,用于描述广泛的网络资源。Dublin Core™标准包括两个级别:简单和合格。Simple Dublin Core™包含15个元素;Qualified Dublin Core™包括三个额外的元素(Audience、Provenance和RightsHolder),以及一组元素细化(也称为限定符),以可能在资源发现中有用的方式细化元素的语义。Dublin Core™的语义是由一个国际、跨学科的专业小组建立的,该小组来自图书馆学、计算机科学、文本编码、博物馆社区和其他相关的学术和实践领域。

查看Dublin Core™的另一种方法是作为制作关于资源特定课程陈述的小语言“。在这种语言中,有两种类型的术语 - 元素(名词)和限定符(形容词) - 可以安排到简单的语句模式。资源本身是这种语言的隐含主题。(有关都柏林核心™语法的其他讨论,请参阅“DCMI语法原则”)在多元化的互联网世界,Dublin Core™可以被视为“数字游客的元数据混杂语”:容易掌握,但不一定能胜任表达复杂关系或概念的任务。

Dublin Core™基本元件集概述在第四节.每个元素都是可选的,可以重复。大多数元素也有一组限定符或细化,这些属性可以用于进一步细化(而不是扩展)元素的含义。Dublin Core™元数据计划(DCMI)建立了标准方法来细化元素,并鼓励使用编码和词汇表方案。全套的元素和元素细化符合DCMI“最佳实践”可用,具有正式注册表。

这里还要提到另外三个Dublin Core™原则,因为它们对于理解如何考虑元数据与它们所描述的底层资源之间的关系至关重要。

  1. 一对一的原则。一般来说,Dublin Core™元数据描述了资源的一个表现形式或版本,而不是假设表现形式彼此站立。例如,Mona Lisa的JPEG图像与原版有很大的共同之处,但它与绘画不同。由于这种数字图像应该被描述为自身,最有可能与包括作为创建者或贡献者的数字图像的创建者,而不是仅仅是原始蒙娜丽莎的画家。原始和再现的元数据之间的关系是元数据描述的一部分,并帮助用户确定他或她是否需要转到卢浮宫的原件,或者是否可以通过再现满足他/她的需求。> 2.愚蠢的原则。Dublin Core™属性的资格是通过将话语称为愚蠢原理的规则指导。根据这条规则,客户端应该能够忽略任何限定符并使用该值,就像它不合格一样。虽然这可能导致某些特异性丢失,但剩余的元素值(减去限定符)必须继续依赖于发现并有用。因此,符合资格应该只能改进,而不是延长属性的语义范围。> 3.适当的值。特定元素或限定符的最佳做法可能因上下文而异,但通常,实现者无法预测元数据的解释器始终是机器。 This may impose certain constraints on how metadata is constructed, but the requirement of usefulness for discovery should be kept in mind.

虽然Dublin Core™最初是用眼睛开发的,但是描述了类似文件的对象(因为传统文本资源相当良好地理解),但也可以应用于其他资源的DC元数据。它适用于特定非文档资源的适用性将在一定程度上取决于它们的元数据与典型文档元数据的关系,以及元数据旨在服务的目的。(对使用Dublin Core™有兴趣进行多种资源的实施者被鼓励浏览Dublin Core™项目页面有关使用Dublin Core™元数据进行资源的想法。)

都柏林核心™作为目标:

创建和维护的简单性

Dublin Core™元素集尽可能小而简单,以允许非专家可以轻松且廉价地为信息资源创建简单的描述性记录,同时提供有效地检索网络环境中的这些资源。

通常理解的语义

从一个知识领域到另一个知识领域的术语和描述实践的差异,阻碍了跨越互联网的广泛公共领域的信息发现。Dublin Core™可以帮助“数字游客”——非专业的搜索者——找到他或她的方式,通过支持一组通用的元素,这些元素的语义被普遍理解和支持。例如,关注某一作者的文章的科学家,以及对某一艺术家的作品感兴趣的艺术学者,可以就“创造者”元素的重要性达成一致。在一个公共的(如果稍微更通用一些的话)元素集上的这种聚合增加了给定规程内外所有资源的可见性和可访问性。

国际范围

Dublin Core™Element Set最初是用英语开发的,但版本是用许多其他的语言,包括芬兰,挪威,泰国,日本,法国,葡萄牙语,德语,希腊语,印度尼西亚和西班牙语。DCMI本地化和国际化特殊兴趣集团正在协调努力将这些版本链接在分布式注册表中。

虽然都柏林核心™开发区没有直接涉及全球网络的技术挑战,但代表几乎所有大陆的参与都确保了标准的发展考虑了电子信息的多语种和多元文化性质宇宙。

可扩展性

在满足简单的需求时,在描述具有精确检索的数字资源的情况下,都柏林核心™开发人员已经认识到提供一种用于扩展DC元素集的机制以获得额外的资源发现需求的重要性。预计元数据专家的其他社区将创建和管理专门为其社区需求的额外元数据集。来自这些集合的元数据元素可以与Dublin Core™元数据一起使用,以满足互操作性的需求。DCMI使用电路板目前正在研究在“应用程序配置文件”的上下文中完成此操作的模型。

雷切尔·莱特和曼布拉帕尔,在他们的文章中“应用程序配置文件:混合和匹配元数据模式”定义应用程序配置文件:

“...由由一个或多个名称空间绘制的数据元素组成的模式,由实现者组合在一起,并针对特定的本地应用程序进行了优化。”

该模型允许不同的社区使用DC元素进行核心描述性信息,并允许在更有限的竞技场内进行有意义的域特定扩展。

1.3.本指南的目的和范围

本文档旨在成为Dublin Core™用户的入口点。对于非专家来说,它将有助于为信息资源创建简单的描述性记录(例如,电子文档,JPEG图像,视频剪辑)。专家可能会发现文档是对都柏林核心文档的有用点,因为它变化并增长。

“使用Dublin Core™”将以非技术方式展示任何人如何使用Dublin Core™元数据,以使他们的材料更容易访问。它讨论了Dublin Core™元数据元素的原则、结构和内容,如何在组成完整的Dublin Core™元数据记录中使用它们,以及如何限定元素以支持各种社区的使用。

本文档的另一个重要目标是促进使用Dublin Core™元素集描述资源的“最佳实践”。Dublin Core™社区认识到,创建元数据的一致性是跨不同的描述性记录源实现最佳检索和可理解显示的重要关键。不一致的元数据有效地隐藏了所需的记录,导致不均匀、不可预测或不完整的搜索结果。

作为一般性介绍,本文档必须简短,不能解决实现人员在规划元数据使用时可能遇到的所有问题。对于那些在本指南中解决的问题之外还有其他问题的人,仍然有一些途径。

    1. 本指南的后面附有相关文章和其他资源的参考资料,包括那些为实现者提供更多技术指导的文章和资源
  1. Dublin Core™网站包含对DCMI社区的其他文件和资源的引用以及实施者参与DCMI的方法
  2. 可以针对具体的问题askdcmi..除了生意问题之外,AskDcmi服务还将已搜索的档案维护已回答的问题和链接到其他资源。

2.语法问题

Dublin Core™抽象模型提供可以比较特定DC编码指南的参考模型,与任何特定编码语法无关。这样的参考模型允许实现者更好地理解他们正在尝试编码的各种描述,并促进更好的映射和不同语法之间的翻译。虽然该文件主要针对支持Dublin Core™Metadata的软件应用程序的开发人员,但任何考虑实施Dublin Core™的人 - 特别是那些因以任何方式延伸DC的人 - 可以用力审查文档。参与开发Dublin Core™元数据或基于Dublin Core™开发元数据应用程序配置文件的新语法编码指南的人也应该熟悉DC抽象模型。

在本指南中,我们选择以“通用”形式(Element=“value”)表示Dublin Core™示例。其他语法的例子,包括:HTML或XHTML (Web的超文本标记语言格式)、RDF/XML(使用可扩展标记语言的资源描述框架)和纯XML,可以在特定语法中找到DCMI网站上提供的文件.其中一些也在本文件中引用参考书目部分本指南。

语法选择取决于许多变量,“一刀切”的规定很少适用。当考虑一个适当的语法,重要的是要注意,都柏林核心™和语义概念设计为独立语法,也同样适用于各种不同的场合,只要元数据以一种适于解释这两个搜索引擎和人类。

2.1.HTML和XHTML

HTML或XHTML可用于表达简单或合格的都柏林核心,尽管在HTML中表示细化时存在局限性。可以在以下DCMI文档中找到用于HTML中的Dublin Core™的具体说明:

  1. 在HTML / XHTML元和链接元素中表达合格的Dublin Core™

2.2.RDF / XML

RDF(资源描述框架)允许人类读取多个元数据方案,以及机器解析。它使用XML(可扩展标记语言)来表达结构,从而允许元数据社区定义实际语义。这种分散的方法认识到任何一种方案都适用于所有情况,进一步需要一个独立于援助描述,识别,理解,可用性和/或交换的中央权力机构的链接机制。

RDF允许在不指定所需的详细信息的情况下描述要描述的多个对象。底层胶水XML只是要求定义所有命名空间并一旦定义,它们就可以用于元数据提供者所需的范围。

例如:

  玫瑰布什 指南生长玫瑰 描述了种植和培育不同类型的玫瑰灌木的过程。  2001-01-20   

这个简单的例子自行使用Dublin Core™来描述生长玫瑰灌木丛的指南的音频录制。使用XML或RDF / XML,Dublin Core™可能与其他元数据词汇表混合。例如,上面的简单Dublin Core™描述可以与其他词汇相同,例如可以描述作者的联系和联系信息,或者更专业的“玫瑰描述”词汇表更详细地描述了玫瑰衬套。

DCMI提供了一些关于使用这些语法的建议:

  1. 用XML实现Dublin Core™的指南
  2. 用RDF/XML表示Simple Dublin Core™
  3. 在RDF / XML中表达合格的Dublin Core™(拟议的建议)

2.3.元数据存储和维护问题

一些使用Dublin Core™的实现选择将元数据嵌入到资源本身中。这种方法最常用于使用HTML编码的文档,但有时也可能用于其他类型的文档。开发了一些简单的工具,使在HTML编码的页面中提供Dublin Core™元数据变得相当容易。一个这样的工具,dc.dot.,从HTML文档中提取元数据信息,并格式化它,以便可以编辑它,然后剪切并粘贴回原始文档的HTML标题。

另一方面,元数据可以存储在任何类型的数据库中,并提供到所描述资源的链接,而不是嵌入其中。这种方法对于许多非文本资源可能是最实用的,并且越来越多地用于文本,主要是为了支持更容易的元数据维护和共享。

这些方法中的每一个都具有它们的优缺点,并且平衡点随着实现变得更大,更多样化,并且随着时间的推移而变化。

3.元素内容和受控词汇表

每个都柏林核心™元素是可选和可重复的,并且没有规定的元素顺序。多次出现相同元素(例如,创建者)的排序可以具有由提供者预期的意义,但是不保证在每个用户环境中保留的排序。排序或排序可能是依赖的语法;例如,RDF / XML支持排序,但HTML没有。

一些元素的内容数据可以从“受控词汇表”中选择,该词汇表是一致使用和仔细定义的术语的有限集。这可以极大地提高搜索结果,因为计算机擅长逐字匹配单词,但不太理解人们使用不同单词(如同义词)指代同一个概念的方式。如果没有基本的术语控制,不一致或不正确的元数据会严重降低搜索结果的质量。例如,在没有受控词汇表的情况下,“candy”和“sweet”可能指的是同一个概念。在记录元数据时,受控词汇表还可以减少拼写错误的可能性。

受控词汇的一种成本是管理机构审查,更新和传播词汇的必要性。例如,美国国会主题网页(LCSH)和美国医学医学主题标题(网格)的美国国家图书馆是正式的词汇表,用于搜索严格编目的收藏品不可或缺。但是,两者都需要重要的支持组织。另一种成本必须培训Metadata的搜索者和创造者,以便他们知道使用网格时,例如,进入“心肌梗塞”而不是更具口语“心脏病发作”。更复杂的实现可以更轻松地使这些任务更容易,但控制的词汇术语必须适用于它们。

可以使用受控词汇最有效地完成编码方案.如果没有专门指定的编码方案,则不能从特定受控词汇表仔细选择的对象不能与一个简单的关键字区分开。

4.要素

5。都柏林核心™限定符

6。附录,角色

7.词汇表

8.参考书目