元数据设计,实施和最佳实践的创新

元数据基础

元数据,字面意思是“关于数据的数据”——具体来说,描述性元数据- 是关于任何可以命名的内容的结构化数据,例如网页,书籍,日记文章,图像,歌曲,产品,流程,人员(以及他们的活动),研究数据,概念和服务。现在是一个主流的概念,元数据第一次是在1995年,紧随其后全球资讯网在1994年。(关于行为和交易的“大数据”元数据,比如2013年流行的Facebook点赞、电话、推特等,不在本文的简要介绍范围内。)

都柏林核心™元数据或者在Dublin Core™样式中可能更准确地元数据“,是在基础上设计用于互操作性的元数据语义网络关联数据的原则。这种风格的元数据使用统一资源标识符(uri)作为元数据所描述的事物和用于描述它们的术语的全局标识符(词汇表)。这种风格的特征在于应用程序档案- 详细说明了如何如何认识的通用词汇表都柏林核心使用、约束或与更专门的词汇表组合,以满足特定应用程序的需求。自2000年首次出现以来,应用程序概要文件一直是Dublin Core™社区的焦点。

从Catalog记录到链接数据

都柏林核心,一套由15个通用的、广泛使用的元素组成的集合——创作者、贡献者、出版者、标题、日期、语言、格式、主题、描述、标识符、关系、来源、类型、覆盖范围和权利——最初是在1995年俄亥俄州都柏林的一次会议上起草的,最初是为了促进爆炸式增长的网络上的信息发现,通过嵌入简单、页面中类似卡片目录的元数据。一个由图书管理员、技术人员和研究人员组成的多元化社区团结在一起,通过一系列生动的研讨会和会议来追求和完善这个想法,通过共享语义的核心实现跨语言和学科的大致互操作性。Web技术的不断发展将这个社区拉向了两个方向:

元数据基于记录格式。主流开发人员已经并将继续在关系数据库和存储库的上下文中使用诸如Dublin Core™之类的词汇表,其中许多词汇表基于XML, XML是一种可扩展标记语言,用于将元数据记录的内容指定为结构化文档。记录格式的实现者喜欢文本值、封闭的质量控制、自顶向下的一致性,以及对易于理解的、经过验证的软件解决方案的依赖。应用程序之间的互操作性体现在对固定格式的坚持上,比如15个元素的Simple Dublin Core™和Qualified Dublin Core™(2003),以及几十个额外的DCMI元数据术语,以及多年来发布的几十种其他格式。虽然基于记录的方法可能相对容易部署,但跨不同结构格式的互操作性依赖于难以维护和使用的特别“人行横道”(映射)。

基于重组语句的元数据。从20世纪90年代末开始,全球Web联盟的工作组追求数据网络或语义网络的愿景。这种愿景是通过的资源描述框架(RDF)通过全局域名系统(DNS)可以将URI解析为Web上的资源。这1999年RDF的第一个W3C建议以使用Dublin Core的带注释的元数据示例为特色,它在2000年成为使用持久uri的RDF发布的第一批词汇之一。面对开放网络的混乱和复杂性,RDF实现者旨在实现部分互操作性。在RDF心态中,元数据不包括已知结构的离散,有界记录(文档),而是无限的,概要的由原子组成语句通过将多个来源合并到图表中,可以对其进行重组或“混合”。在基于语句的元数据中,多个源之间的互操作性来自使用或映射到共享uri,最好来自众所周知的词汇表,如Dublin Core™。

都柏林核心风格的应用程序配置文件。其中XML实现者将应用程序配置文件视为用于在特定应用程序中创建可验证的元数据记录的蓝图,RDF实现者看到配置文件作为设计与跨越多个应用程序的数据图形的元数据的基础。弥合这个差距,DCMI的新加坡框架(2007)理想的应用程序配置文件作为几种最佳实践设计组件的总和。核心是一个概念描述作为一组关于单个资源的语句。多个资源(如Book和Author)的描述可以绑定到描述组反过来,这可以直接存储为RDF图形,或者以旨在转换为RDF的格式编码。精心设计的应用程序简介将基于可用的RDF词汇表,铰接式实体模型,并明确定义的功能要求。这种风格的元数据不需要基于都柏林核心™,但可以借鉴RDF词汇表的多样性,例如朋友的朋友(FOAF, 这书目本体论(BIBO,Schema.org.

今天链接数据兼容元数据

基于RDF词汇表的对元数据的摄取,具体是基于RDF词汇表的元数据,由技术的演变推动:

  • 支持创建元数据。现代软件平台,如Drupal内容管理系统和Hugo静态网站生成器使用元数据来构建网站的内容和演示。有些也可以配置为通过将其嵌入在网页中或通过在链接的数据兼容语法中生成元数据effips来发布链接数据。
  • 支持查询元数据。通过使用标准查询语言,可以以关系数据库的方式查询链接数据的存储库,SPARQL。这可以促进一个SPARQL终点接受查询并在Web上返回结果。
  • 支持索引嵌入式元数据。1995年通过嵌入式元数据查找Web资源的愿景首先在2011年成为主流,谷歌,Bing和Yahoo!宣布支持Schema.org.旨在帮助WebMasters使用嵌入式元数据来改善搜索结果中的站点的演示。主要搜索引擎现在提取和索引元数据嵌入了多个语法之一:HTML微数据,有限的表达性,但对于网站管理员来说,最简单的部署;RDFa,更丰富的语法,更好地支持国际化和多个RDF命名空间;和JSON-LD,一个流行的JavaScript对象表示法(JSON)的RDF兼容变体。这些广泛支持的语法有效地过时了2008年之前开发的一系列IETF和DCMI语法规范,专门用于表达Dublin Core™元数据。
  • 支持将值称为词汇表作为链接数据。W3C标准简单知识组织系统(斯科斯为共享分类和叙述提供核心数据模型,例如AGROVOC,即关联数据。每个概念SKOS概念方案是用URI标识的,URI在元数据中是全局可引用的,因此可以用作链接或合并来自不同来源的元数据的基础。SKOS使得将现有知识组织系统的丰富传统从印刷书籍、竖井数据库和pdf移植到语义Web相对容易。SKOS在图书馆和研究领域的快速吸收导致RDF作为互操作性的主流解决方案得到更广泛的接受。
  • 支持协作元数据创建。wikidata.,由维基百科和其开源平台Wikibase用作结构化开放数据的合作编辑知识库,使其更容易通过众包创建和维护元数据。
  • 支持验证RDF元数据。形状表达语言(Shex.和相关的形状约束语言(Shacl.现在提供将RDF图形视为以XML模式的方式作为闭合世界一致性验证的对象。应用程序配置文件现在可以表示为Shex模式,其中域实体建模为Shex形状。DCMI社区的进一步工作将旨在使非专家用户更容易使用电子表格等熟悉工具创建验证模式。

DCMI的关联数据能力指数将这些区域中的许多人分解为特技技能和概念(“能力”)可供教师,培训师,教授或独立学习者在设计课程或自我导向的学习中使用。

第二个机器时代的元数据

在他的在DC-2016时主题演讲Bradley Allen讨论了元数据在第二次机器时代的作用。他指出:“谷歌等搜索引擎已经主宰了用户的发现体验,而元数据标准在内容管理和管理的基础设施中无处不在,并支撑着搜索基础设施。”在他看来,一个线程从都柏林核心™通过开放的建立关联数据的出现,知识图,图结构数据库的帮助下从内容中提取机器智能不仅帮助人们发现,过滤器,并组织信息,也为构建问题的答案。在他的设想中,元数据的设计应该以帮助机器阅读和学习Web的方式发展,反过来,帮助机器和人更容易发现和使用它的资源。