元数据设计、实施和最佳实践方面的创新

元数据基础

元数据,字面意思是“关于数据的数据”——具体来说,描述性元数据——是关于任何可以命名的东西的结构化数据,比如Web页面、书籍、期刊文章、图像、歌曲、产品、流程、人(及其活动)、研究数据、概念和服务。现在一个主流概念,元数据第一次是在1995年,紧随其后万维网在1994年。(关于行为和交易的“大数据”元数据,比如2013年流行的Facebook点赞、电话、推特等,不在本文的简要介绍范围内。)

™都柏林核心元数据,或者更准确地说,“在Dublin Core™风格”的元数据,是为互操作性而设计的元数据语义网关联数据的原则。这种风格的元数据使用统一资源标识符(uri)作为元数据所描述的事物和用于描述它们的术语的全局标识符(词汇表).这种风格的特点是应用程序配置文件——详细说明众所周知的通用词汇表(例如都柏林核心使用、约束或与更专门的词汇表组合,以满足特定应用程序的需求。自2000年首次出现以来,应用程序概要文件一直是Dublin Core™社区的焦点。

从目录记录到关联数据

都柏林核心,一套由15个通用的、广泛使用的元素组成的集合——创作者、贡献者、出版者、标题、日期、语言、格式、主题、描述、标识符、关系、来源、类型、覆盖范围和权利——最初是在1995年俄亥俄州都柏林的一次会议上起草的,最初是为了促进爆炸式增长的网络上的信息发现,通过嵌入简单、页面中类似卡片目录的元数据。一个由图书管理员、技术人员和研究人员组成的多元化社区团结在一起,通过一系列生动的研讨会和会议来追求和完善这个想法,通过共享语义的核心实现跨语言和学科的大致互操作性。Web技术的不断发展将这个社区拉向了两个方向:

基于记录格式的元数据。主流开发人员已经并将继续在关系数据库和存储库的上下文中使用诸如Dublin Core™之类的词汇表,其中许多词汇表基于XML, XML是一种可扩展标记语言,用于将元数据记录的内容指定为结构化文档。记录格式的实现者喜欢文本值、封闭的质量控制、自顶向下的一致性,以及对易于理解的、经过验证的软件解决方案的依赖。应用程序之间的互操作性体现在对固定格式的坚持上,比如15个元素的Simple Dublin Core™和Qualified Dublin Core™(2003),以及几十个额外的DCMI元数据术语,以及多年来发布的几十种其他格式。虽然基于记录的方法可能相对容易部署,但跨不同结构格式的互操作性依赖于难以维护和使用的特别“人行横道”(映射)。

基于重组语句的元数据。从上世纪90年代末开始,万维网联盟(World Wide Web Consortium)的工作组就开始追求数据网或语义网(Semantic Web)的愿景。这一愿景是由资源描述框架(RDF)并通过全球域名系统(DNS)将uri解析为Web上的资源。的1999年第一个RDF W3C推荐标准以使用Dublin Core的带注释的元数据示例为特色,它在2000年成为使用持久uri的RDF发布的第一批词汇之一.面对开放Web的混乱和复杂性,RDF实现者的目标是实现部分互操作性。在RDF思维方式中,元数据不是由已知结构的离散的、有界的记录(文档)组成的,而是由无界的、无模式的记录(文档)组成的由原子组成的语句通过将多个来源合并到图表中,可以对其进行重组或“混合”。在基于语句的元数据中,多个源之间的互操作性来自使用或映射到共享uri,最好来自众所周知的词汇表,如Dublin Core™。

都柏林核心风格的应用程序配置文件。XML实现者将应用程序概要文件视为在特定应用程序中创建可验证元数据记录的蓝图,而RDF实现者将概要文件视为设计元数据的基础,这些元数据将兼容地适合跨多个应用程序的数据图。为了弥补这个差距,DCMI新加坡框架(2007)理想的应用程序概要文件是几个最佳实践设计组件的总和。其核心是a的概念描述作为一组关于单个资源的语句。多个资源(如Book和Author)的描述可以绑定到描述组它可以直接存储为RDF图,也可以编码为可转换为RDF的格式。设计良好的应用程序概要文件将基于可用的RDF词汇表、良好连接的实体模型和明确定义的功能需求。这种风格的元数据不必基于Dublin Core™,但可以利用多种RDF词汇,例如朋友的朋友(FOAF,文献本体(BIBO,Schema.org

今天Linked-Data-compatible元数据

元数据的吸收,特别是基于RDF词汇表的元数据,已经被技术的发展所推动:

  • 支持创建元数据。现代软件平台,如Drupal内容管理系统和Hugo静态网站生成器使用元数据来构建网站的内容和表示。有些还可以配置为发布链接数据,方法是将其嵌入到Web页面中,或者用与链接数据兼容的语法生成元数据提要。
  • 支持查询元数据。通过使用标准查询语言,可以以关系数据库的方式查询关联数据存储库,SPARQL.这可以被简化SPARQL端点通过Web接受查询并返回结果。
  • 支持对嵌入的元数据进行索引。1995年通过嵌入元数据寻找网络资源的愿景在2011年首次成为主流,当时谷歌、Bing和Yahoo!宣布支持Schema.org,旨在帮助网站管理员使用嵌入的元数据来改善他们网站在搜索结果中的表现。主要的搜索引擎现在提取和索引元数据嵌入几种语法之一:HTML微数据,表达能力有限,但对站长来说是最容易部署的;RDFa,更丰富的语法,更好地支持国际化和多个RDF名称空间;和JSON-LD,是流行的Javascript对象表示法(JSON)的rdf兼容变体。这些广受支持的语法有效地淘汰了2008年以前专门用于表示Dublin Core™元数据而开发的一系列IETF和DCMI语法规范。
  • 支持将值词汇表发布为链接数据。W3C标准简单知识组织系统(SKOS为共享分类法和辞典提供核心数据模型,例如AGROVOC,即关联数据。每个概念SKOS概念方案是用URI标识的,URI在元数据中是全局可引用的,因此可以用作链接或合并来自不同来源的元数据的基础。SKOS使得将现有知识组织系统的丰富传统从印刷书籍、竖井数据库和pdf移植到语义Web相对容易。SKOS在图书馆和研究领域的快速吸收导致RDF作为互操作性的主流解决方案得到更广泛的接受。
  • 支持协作创建元数据。Wikidata维基百科(Wikipedia)和它的开源平台维基数据库(Wikibase)是一个协作编辑的知识库,被用作结构化开放数据的来源。通过众包,创建和维护元数据变得更加容易。
  • 支持验证RDF元数据。形状表达语言(ShEx和相关的形状限制语言(SHACL现在提供了以XML模式的方式将RDF图作为封闭世界一致性验证对象的能力。应用程序概要文件现在可以表示为ShEx模式,域实体建模为ShEx形状。DCMI社区中的进一步工作将致力于使非专家用户更容易使用熟悉的工具(如电子表格)创建验证模式。

DCMI的关联数据能力指数将这些领域分解成一系列技能和概念(“能力”),可供教师、培训师、教授或独立学习者在设计课程或自主学习时使用。

第二个机器时代的元数据

在他的在2016年dc大会上的主题演讲Bradley Allen讨论了元数据在第二次机器时代的作用。他指出:“谷歌等搜索引擎已经主宰了用户的发现体验,而元数据标准在内容管理和管理的基础设施中无处不在,并支撑着搜索基础设施。”在他看来,一个线程从都柏林核心™通过开放的建立关联数据的出现,知识图,图结构数据库的帮助下从内容中提取机器智能不仅帮助人们发现,过滤器,并组织信息,也为构建问题的答案。在他的设想中,元数据的设计应该以帮助机器阅读和学习Web的方式发展,反过来,帮助机器和人更容易发现和使用它的资源。