元数据,字面意思是“关于数据的数据”——具体来说,描述性元数据——是关于任何可以命名的东西的结构化数据,比如Web页面、书籍、期刊文章、图像、歌曲、产品、流程、人(及其活动)、研究数据、概念和服务。现在一个主流概念,元数据第一次是在1995年,紧随其后万维网在1994年。(关于行为和交易的“大数据”元数据,比如2013年流行的Facebook点赞、电话、推特等,不在本文的简要介绍范围内。)
™都柏林核心元数据,或者更准确地说,“在Dublin Core™风格”的元数据,是为互操作性而设计的元数据语义网或关联数据的原则。这种风格的元数据使用统一资源标识符(uri)作为元数据所描述的事物和用于描述它们的术语的全局标识符(词汇表).这种风格的特点是应用程序配置文件——详细说明众所周知的通用词汇表(例如都柏林核心使用、约束或与更专门的词汇表组合,以满足特定应用程序的需求。自2000年首次出现以来,应用程序概要文件一直是Dublin Core™社区的焦点。
都柏林核心,一套由15个通用的、广泛使用的元素组成的集合——创作者、贡献者、出版者、标题、日期、语言、格式、主题、描述、标识符、关系、来源、类型、覆盖范围和权利——最初是在1995年俄亥俄州都柏林的一次会议上起草的,最初是为了促进爆炸式增长的网络上的信息发现,通过嵌入简单、页面中类似卡片目录的元数据。一个由图书管理员、技术人员和研究人员组成的多元化社区团结在一起,通过一系列生动的研讨会和会议来追求和完善这个想法,通过共享语义的核心实现跨语言和学科的大致互操作性。Web技术的不断发展将这个社区拉向了两个方向:
基于记录格式的元数据。主流开发人员已经并将继续在关系数据库和存储库的上下文中使用诸如Dublin Core™之类的词汇表,其中许多词汇表基于XML, XML是一种可扩展标记语言,用于将元数据记录的内容指定为结构化文档。记录格式的实现者喜欢文本值、封闭的质量控制、自顶向下的一致性,以及对易于理解的、经过验证的软件解决方案的依赖。应用程序之间的互操作性体现在对固定格式的坚持上,比如15个元素的Simple Dublin Core™和Qualified Dublin Core™(2003),以及几十个额外的DCMI元数据术语,以及多年来发布的几十种其他格式。虽然基于记录的方法可能相对容易部署,但跨不同结构格式的互操作性依赖于难以维护和使用的特别“人行横道”(映射)。
基于重组语句的元数据。从上世纪90年代末开始,万维网联盟(World Wide Web Consortium)的工作组就开始追求数据网或语义网(Semantic Web)的愿景。这一愿景是由资源描述框架(RDF)并通过全球域名系统(DNS)将uri解析为Web上的资源。的1999年第一个RDF W3C推荐标准以使用Dublin Core的带注释的元数据示例为特色,它在2000年成为使用持久uri的RDF发布的第一批词汇之一.面对开放Web的混乱和复杂性,RDF实现者的目标是实现部分互操作性。在RDF思维方式中,元数据不是由已知结构的离散的、有界的记录(文档)组成的,而是由无界的、无模式的记录(文档)组成的图由原子组成的语句通过将多个来源合并到图表中,可以对其进行重组或“混合”。在基于语句的元数据中,多个源之间的互操作性来自使用或映射到共享uri,最好来自众所周知的词汇表,如Dublin Core™。
都柏林核心风格的应用程序配置文件。XML实现者将应用程序概要文件视为在特定应用程序中创建可验证元数据记录的蓝图,而RDF实现者将概要文件视为设计元数据的基础,这些元数据将兼容地适合跨多个应用程序的数据图。为了弥补这个差距,DCMI新加坡框架(2007)理想的应用程序概要文件是几个最佳实践设计组件的总和。其核心是a的概念描述作为一组关于单个资源的语句。多个资源(如Book和Author)的描述可以绑定到描述组它可以直接存储为RDF图,也可以编码为可转换为RDF的格式。设计良好的应用程序概要文件将基于可用的RDF词汇表、良好连接的实体模型和明确定义的功能需求。这种风格的元数据不必基于Dublin Core™,但可以利用多种RDF词汇,例如朋友的朋友(FOAF),文献本体(BIBO),Schema.org.
元数据的吸收,特别是基于RDF词汇表的元数据,已经被技术的发展所推动:
DCMI的关联数据能力指数将这些领域分解成一系列技能和概念(“能力”),可供教师、培训师、教授或独立学习者在设计课程或自主学习时使用。
在他的在2016年dc大会上的主题演讲Bradley Allen讨论了元数据在第二次机器时代的作用。他指出:“谷歌等搜索引擎已经主宰了用户的发现体验,而元数据标准在内容管理和管理的基础设施中无处不在,并支撑着搜索基础设施。”在他看来,一个线程从都柏林核心™通过开放的建立关联数据的出现,知识图,图结构数据库的帮助下从内容中提取机器智能不仅帮助人们发现,过滤器,并组织信息,也为构建问题的答案。在他的设想中,元数据的设计应该以帮助机器阅读和学习Web的方式发展,反过来,帮助机器和人更容易发现和使用它的资源。