元数据设计、实施和最佳实践方面的创新

元数据基础知识

元数据,意思是“关于数据的数据” - 具体而言,描述元数据--是关于任何可以命名的内容的结构化数据,如网页、书籍、期刊文章、图像、歌曲、产品、流程、人员(及其活动)、研究数据、概念和服务。现在是主流概念,元数据在1995年第一趋势,密切关注万维网1994年(约操作和交易,如Facebook的喜欢,电话,微博,和“大数据”的元数据等,这些趋势在2013年,超出范围的这个简短的介绍。)

都柏林核心元数据集™ 元数据,或者更准确地说,是都柏林核心中的“元数据”™ “样式”,是为互操作性而设计的元数据,基于语义网关联数据原则。元数据在此样式使用统一资源标识符(URI)作为全局标识符都通过元数据和术语的描述的东西用来描述它们(词汇).这种款式的特点是应用程序配置文件——详细说明众所周知的通用词汇表(例如都柏林核心使用时,约束,或与更专业词汇,以满足特定应用的要求。应用程序配置文件已经都柏林睿™社会关注的焦点,因为他们在2000年首次趋势。

从目录记录到链接数据

都柏林核心,一组十五通用的,广泛使用的元素 - 创造者,贡献者,出版商,标题,日期,语言,形式,主题,描述,标识符,关系,来源,类型,范围和权利 - 首先在起草1995年在俄亥俄州都柏林举行会议,初步在其页面中嵌入简单,卡片目录类似元数据便于爆炸性增长的Web信息发现。图书馆员,技术人员和研究人员的不同的社区团结起来的想法,追求并通过一系列的活泼研讨会和会议,通过共享语义的核心实现跨语言,跨学科的粗糙互操作性的细化。在Web技术的发展连续两个方向拉这个社会:

基于记录格式的元数据。主流开发商已经使用,并继续使用,在关系数据库和资料库,其中有许多是基于XML的上下文词汇,如都柏林核心™,可扩展标记语言的结构化文档指定的元数据记录的内容。记录格式实施者的充分理解,尝试和真正的软件解决方案,有利于文本值,封闭世界的质量控制,自上而下的一致性,和依赖。在应用程序之间的互操作性被认为是在遵守有关使用固定格式,如十五件简单的Dublin Core™和合格的Dublin Core™(2003年),有几十个额外的DCMI元数据术语,几十发表多年来其他格式。虽然基于记录的方法可能是比较容易的部署,跨结构不同格式的互操作性依赖于特设“人行横道”,是难以维护和使用(映射)。

基于重组声明的元数据。从20世纪90年代末开始,万维网联盟的工作组追求数据网或语义网的愿景。这一愿景是由资源描述框架(RDF)通过一个全球域名系统(DNS),可以将URI解析为Web上的资源1999年W3C首次推荐RDF以使用Dublin Core的带注释的元数据示例为特色,它在2000年成为第一词汇之一刊登在RDF与固定的URI。面对开放式Web的混乱和复杂性,RDF实施者的目标是实现部分互操作性。在RDF思维中,元数据不是由已知结构的离散、有界记录(文档)组成,而是由无界、无模式的记录(文档)组成图形由原子组成的声明可能被重新组合,或“混搭”,通过合并多个源到曲线图。在其中使用,或映射,共享的URI,优选公知的词汇如都柏林核心™多个源结果基于语句的元数据,互操作性。

都柏林核心风格的应用程序配置文件。XML实现者将应用程序配置文件视为在特定应用程序中创建可验证元数据记录的蓝图,RDF实现者将配置文件视为设计元数据的基础,这些元数据可以兼容地适应跨多个应用程序的数据图新加坡框架(2007年)理想的应用程序配置文件是几个最佳实践设计组件的总和。其核心是一个概念描述作为一组有关单个资源的语句。多种资源,如图书和作者的描述,可以捆绑成一个描述集它可以直接存储为RDF图,也可以编码为可转换为RDF的格式。设计良好的应用程序概要文件将基于可用的RDF词汇表、良好连接的实体模型和明确定义的功能需求。这种风格的元数据不必基于Dublin Core™,但可以利用多种RDF词汇,例如朋友的朋友 (FOAF),即文献本体(BIBO), 和Schema.org.

当今的链接数据兼容元数据

元数据的吸收,特别是基于RDF词汇表的元数据,已经被技术的发展所推动:

  • 支持创建元数据。现代软件平台,如Drupal内容管理系统和Hugo static website generator,使用元数据来构建网站的内容和表示。有些还可以配置为发布链接数据,可以将其嵌入网页中,也可以在链接数据兼容的语法中生成元数据提要。
  • 支持查询元数据。通过使用标准查询语言,可以以关系数据库的方式查询关联数据存储库,SPARQL.这可以通过SPARQL端点它通过Web接受查询并返回结果。
  • 支持索引嵌入元数据。1995年,谷歌、必应(Bing)和雅虎(Yahoo!)宣布支持通过嵌入式元数据查找网络资源的愿景于2011年首次成为主流Schema.org,其目的是帮助网站管理员使用嵌入的元数据来改进其网站在搜索结果中的显示。现在,主要搜索引擎使用以下几种语法之一提取和索引嵌入的元数据:HTML微观数据,表达能力有限,但网站管理员最容易部署;RDFa的,更丰富的语法,更好地支持国际化和多个RDF命名空间;和JSON-LD,一个流行的Javascript对象表示法(JSON)的RDF兼容变体。这些得到广泛支持的语法有效地淘汰了2008年之前开发的一系列IETF和DCMI语法规范,这些规范专门用于表达都柏林核心™ 元数据。
  • 支持将值词汇表发布为链接数据。W3C标准简单知识组织系统(斯科斯)提供用于共享分类法和同义词表的核心数据模型,例如AGROVOC作为关联数据。在每个概念SKOS概念方案是确定与URI是在元数据中可引用全局和因此可以作为基础用于链接,或来自不同源的合并,元数据。SKOS使得它比较容易从口印刷书籍,孤立的数据库和PDF现有知识组织系统的丰富的传统语义网。SKOS中导致了更广泛的接受RDF作为互操作性主流解决方案的图书馆和研究世界的快速吸收。
  • 支持协作创建元数据。Wikidata维基百科(Wikipedia)和它的开源平台维基数据库(Wikibase)是一个协作编辑的知识库,被用作结构化开放数据的来源。通过众包,创建和维护元数据变得更加容易。
  • 支持验证RDF元数据。这个形状表达式语言(谢克斯)和相关形状约束语言(沙克尔)现在提供了以XML模式的方式将RDF图视为封闭世界一致性验证的对象的能力。应用程序配置文件现在可以表示为ShEx模式,域实体建模为ShEx形状。DCMI社区的进一步工作将旨在使非专家用户更容易使用熟悉的工具(如电子表格)创建验证模式。

DCMI's关联数据竞争力评价指标将这些领域分解为一系列技能和概念(“能力”),供教师、培训师、教授或独立学习者在设计课程或进行自主学习时使用。

元数据在二机时代

在他的DC-2016大会主题演讲布拉德利·艾伦讨论了元数据的第二台机器时代的角色。“虽然发现的用户体验已经被搜索引擎如谷歌的天下,”他说,“元数据标准在内容策展和管理,托换搜索基础结构的基础设施普遍”。在他看来,从建立都柏林睿™通过打开一个单独的线程运行关联数据,以知识图的出现 - 从机器智能的帮助内容中提取的图形结构的数据库不仅帮助人们发现,过滤器,和组织信息,同时也为构建问题的答案。在他的设想中,元数据的设计应的方式,可帮助机器读取并从Web学习,反过来,帮助使其资源机器和人的发现和使用更容易发展。