元数据,字面意思是“关于数据的数据”——具体来说,描述性元数据- 是关于任何可以命名的内容的结构化数据,例如网页,书籍,日记文章,图像,歌曲,产品,流程,人员(以及他们的活动),研究数据,概念和服务。现在是一个主流的概念,元数据第一次是在1995年,紧随其后全球资讯网在1994年。(关于行为和交易的“大数据”元数据,比如2013年流行的Facebook点赞、电话、推特等,不在本文的简要介绍范围内。)
都柏林核心™元数据或者在Dublin Core™样式中可能更准确地元数据“,是在基础上设计用于互操作性的元数据语义网络或关联数据的原则。这种风格的元数据使用统一资源标识符(uri)作为元数据所描述的事物和用于描述它们的术语的全局标识符(词汇表)。这种风格的特征在于应用程序档案- 详细说明了如何如何认识的通用词汇表都柏林核心使用、约束或与更专门的词汇表组合,以满足特定应用程序的需求。自2000年首次出现以来,应用程序概要文件一直是Dublin Core™社区的焦点。
都柏林核心,一套由15个通用的、广泛使用的元素组成的集合——创作者、贡献者、出版者、标题、日期、语言、格式、主题、描述、标识符、关系、来源、类型、覆盖范围和权利——最初是在1995年俄亥俄州都柏林的一次会议上起草的,最初是为了促进爆炸式增长的网络上的信息发现,通过嵌入简单、页面中类似卡片目录的元数据。一个由图书管理员、技术人员和研究人员组成的多元化社区团结在一起,通过一系列生动的研讨会和会议来追求和完善这个想法,通过共享语义的核心实现跨语言和学科的大致互操作性。Web技术的不断发展将这个社区拉向了两个方向:
元数据基于记录格式。主流开发人员已经并将继续在关系数据库和存储库的上下文中使用诸如Dublin Core™之类的词汇表,其中许多词汇表基于XML, XML是一种可扩展标记语言,用于将元数据记录的内容指定为结构化文档。记录格式的实现者喜欢文本值、封闭的质量控制、自顶向下的一致性,以及对易于理解的、经过验证的软件解决方案的依赖。应用程序之间的互操作性体现在对固定格式的坚持上,比如15个元素的Simple Dublin Core™和Qualified Dublin Core™(2003),以及几十个额外的DCMI元数据术语,以及多年来发布的几十种其他格式。虽然基于记录的方法可能相对容易部署,但跨不同结构格式的互操作性依赖于难以维护和使用的特别“人行横道”(映射)。
基于重组语句的元数据。从20世纪90年代末开始,全球Web联盟的工作组追求数据网络或语义网络的愿景。这种愿景是通过的资源描述框架(RDF)通过全局域名系统(DNS)可以将URI解析为Web上的资源。这1999年RDF的第一个W3C建议以使用Dublin Core的带注释的元数据示例为特色,它在2000年成为使用持久uri的RDF发布的第一批词汇之一。面对开放网络的混乱和复杂性,RDF实现者旨在实现部分互操作性。在RDF心态中,元数据不包括已知结构的离散,有界记录(文档),而是无限的,概要的图由原子组成语句通过将多个来源合并到图表中,可以对其进行重组或“混合”。在基于语句的元数据中,多个源之间的互操作性来自使用或映射到共享uri,最好来自众所周知的词汇表,如Dublin Core™。
都柏林核心风格的应用程序配置文件。其中XML实现者将应用程序配置文件视为用于在特定应用程序中创建可验证的元数据记录的蓝图,RDF实现者看到配置文件作为设计与跨越多个应用程序的数据图形的元数据的基础。弥合这个差距,DCMI的新加坡框架(2007)理想的应用程序配置文件作为几种最佳实践设计组件的总和。核心是一个概念描述作为一组关于单个资源的语句。多个资源(如Book和Author)的描述可以绑定到描述组反过来,这可以直接存储为RDF图形,或者以旨在转换为RDF的格式编码。精心设计的应用程序简介将基于可用的RDF词汇表,铰接式实体模型,并明确定义的功能要求。这种风格的元数据不需要基于都柏林核心™,但可以借鉴RDF词汇表的多样性,例如朋友的朋友(FOAF), 这书目本体论(BIBO),Schema.org.。
基于RDF词汇表的对元数据的摄取,具体是基于RDF词汇表的元数据,由技术的演变推动:
DCMI的关联数据能力指数将这些区域中的许多人分解为特技技能和概念(“能力”)可供教师,培训师,教授或独立学习者在设计课程或自我导向的学习中使用。
在他的在DC-2016时主题演讲Bradley Allen讨论了元数据在第二次机器时代的作用。他指出:“谷歌等搜索引擎已经主宰了用户的发现体验,而元数据标准在内容管理和管理的基础设施中无处不在,并支撑着搜索基础设施。”在他看来,一个线程从都柏林核心™通过开放的建立关联数据的出现,知识图,图结构数据库的帮助下从内容中提取机器智能不仅帮助人们发现,过滤器,并组织信息,也为构建问题的答案。在他的设想中,元数据的设计应该以帮助机器阅读和学习Web的方式发展,反过来,帮助机器和人更容易发现和使用它的资源。