元数据设计、实现和最佳实践的创新

Dublin Core™11年应用概况(2011年)

注:这篇文章于2011年发布在DCMI维基上,于2019年为DCMI博客进行了重新格式化和少量编辑。

“应用程序概要”的概念是由Rachel Heery在2000年10月的第8届Dublin Core™研讨会上介绍给Dublin Core™社区的。该思想明显区分了“名称空间模式”(由其维护者定义的数据元素集)和“应用程序概要模式”(从一个或多个名称空间模式提取的数据元素集,并由实施者根据本地需求进行优化),引入了“将Dublin Core™元素与来自相关词汇表的元素混合并匹配”的概念。

根据设计,应用程序概要文件被限制使用在其他地方定义的元素:“如果实现者希望创建其他地方不存在的‘新’元素,那么(在此模型下)他们必须创建自己的名称空间模式,并负责‘声明’和维护该模式。”Heery和Patel 2000年.应用程序概要文件的作用是记录元素是如何为特定于应用程序的目的而被约束、编码或解释的,以便在更广泛的社区中促进元数据实践的协调,尽管预计“基于RDF等数据模型”的概要文件的机器可处理表达式可能允许元数据互操作性实现自动化2003年用法委员会.应用程序概要文件被设想为对“您的元数据使用哪些术语”这个问题的机器可理解的叙述性响应。贝克等,2002

走向形式化的应用程序概要

应用程序概要文件最初非常一般的概念被解释为许多不兼容的方式。使应用程序概要文件之间具有可比性需要共享的建模基础,而该模型的明显候选者是RDF。2000年至2003年,在欧盟模式项目的背景下,欧洲标准化委员会(CEN)的CEN/ISSS多媒体信息元数据研讨会——都柏林核心™(WS/MMI-DC)中,向基于RDF的都柏林核心™应用程序概要概念正式化迈出了第一步。岑2003

工程开始于2003年DCMI抽象模型(DCAM),其部分目的是为应用程序概要文件提供更可靠的建模基础。描述集的形式化概念是DCAM的核心,它为形式化的概念提供了基础描述配置文件(DSP) -描述集上的结构约束的表达,其形式为组件(描述和语句)的“模板”。描述集概要文件,反过来,形成了都柏林核心应用程序概要的新加坡框架,它将应用程序概要文件定义为一组规范,然而,简单地说,通过功能需求通知由元数据描述的实体的领域模型的设计过程,作为详细描述所使用的词汇表和约束的描述集概要文件的基础,反过来为具体的元数据格式提供基础。

在此模型下,应用程序概要文件不仅被视为模式,而且被视为记录特定于应用程序的元数据模型的规范和使用指南包——该模型反过来基于域标准,如社区域模型、元数据词汇表和DCAM及其相关语法指南。领域标准本身是以RDF的“基础标准”为基础的。在此基础上创建应用程序配置文件的入门知识,Dublin Core™应用程序概要指南,在2009年出版,DCMI使用委员会开发和测试评估应用程序概要的一致性的标准根据《新加坡框架》的指导方针和原则。

新加坡的框架
新加坡的框架

应用程序概要文件的新加坡框架方法旨在指导与RDF兼容的实例元数据的设计——基于特定于应用程序的格式的记录,使用RDF词汇表,根据描述集概要文件约束语言构建模板,并用与DCAM定义关系的具体语法表示(如HTML、XML和RDF/XML)。DCAM在RDF中的基础将确保基于DCAM的实例元数据的内容可以直接表示为RDF三元组,从而表示为关联数据。

更重要的是,用于应用程序概要的新加坡框架方法旨在弥合传统数据管理方法(基于具有已定义文档结构的元数据记录)和新语义Web方法(基于理论上无限数据图的概念)之间的差距。

为了做到这一点,DCAM的作者定义了RDF本身没有提供的构造——具体地说,有界描述集的概念(大致类似于RDF概念,当时定义不明确的命名图)。DCAM还将RDF图的无限可能性限制在一组特定的模式中,这些模式旨在捕获Dublin Core™社区的元数据“风格”,使用uri、文本标签、语法编码方案(数据类型)和词汇表编码方案。

在文本中Dublin Core™元数据的互操作性级别在2008年,共享应用程序概要文件被视为四层层次结构中最高级别的互操作性,范围从共享自然语言定义的人类但非机器可操作的互操作性,到基于形式语义(RDF)的互操作性,并最终达到基于共享自然语言定义、形式语义和使用相同术语和相同约束的元数据记录的共享模型的互操作性。

Dublin Core™应用程序概要的未来(正如2011年所见

从1999年开始Ietf RFC 2731,一套用于在Web页面中嵌入元数据的简单指南,DCMI着手开发更复杂的模型和语法指南,以响应Dublin Core™社区的需求。DCMI已经发布了一个词汇表,人们希望在应用程序中部署该词汇表,并且严重缺乏实现指导,因此人们指望DCMI来填补这一空白。

十年后,技术领域发生了显著的变化。关联数据(Linked Data)作为语义Web愿景的一种更易于访问和更集中的变体而引入,已经获得了巨大的动力——这一趋势验证了DCAM对基于rdf的元数据的关注,但它也用作为主流语义Web技术栈一部分开发的标准和工具掩盖了DCAM及其特定于dcmi的术语。值得注意的例子包括W3C开发的RDFa,这是一个经过严格测试和部署的规范,用于将RDF元数据嵌入到普通Web页面中,提供了基于dcam的替代方案DC-HTML指南.W3C的SKOS概念方案的概念简单知识组织系统(SKOS),提供了一个被广泛理解的几乎等同于特定于dcmi的词汇表编码方案的概念。一个重新努力来阐明命名图的语义,承诺提供类似于描述集的RDF构造。

就其本身而言,基于dcam的应用程序概要的方法并没有被广泛实现,尽管它被广泛引用,并在其大致轮廓(如果不是在细节上)上作为元数据设计人员的灵感来源。值得注意的例外包括Dublin Core™藏品应用简介和电子打印应用程序配置文件,也称为学术作品申请简介(SWAP)

DCMI使用委员会在2009年对SWAP的审查发现了基于dcam的规范中的弱点,同时指出基于dcam的方法对于元数据设计人员来说已经变得过于繁琐,因为缺乏工具支持(无论是将应用程序概要文件转换为工作格式还是将应用程序概要文件编写为文档),而对于应用程序概要文件审查人员来说,由于手工检查详细约束的单调乏味而变得过于繁琐。

2010年,DCMI进行了一项严格审查DCAM规范堆栈作为讨论的基础联合会议DCMI架构论坛和W3C库关联数据孵化器组的成员。会议讨论表明,对于DCMI抽象模型和相关规范的意义和价值缺乏共识。虽然一些讨论者按照其作者的意图来看待DCAM——作为基于RDF的元数据记录的抽象语法规范——但其他人则将其视为在抽象级别上描述元数据描述组件的“元模型”独立于RDF中的任何基

很明显,它的作者打算将DCAM作为自动创建和验证元数据记录的基础,元数据记录的内容可以直接以RDF三元组的形式公开。获得这种程度的互操作性和自动化意味着使用定义良好的元数据模型,DCAM的作者都认为RDF是目前唯一具有吸引力的候选模型。相反,“DCAM作为元模型”观点的支持者认为模型具有独立于RDF的价值——也就是说,在没有RDF的属性、类、数据类型和语句语法的情况下,将“语句”分组为“描述”并封装在“描述集”中的概念是有效的。无论这两种完全不同的DCAM观点有什么优点,同样清楚的是,编写规范时已经将DCAM定义为指定与RDF兼容的元数据记录的基础,如果DCAM被定义为独立于RDF的元模型,则基本规范将需要大量重写。

截至2011年,DCAM的功能和价值仍不清楚。在缺乏强大的实现者社区的情况下,DCAM在很大程度上仍然是一个理论规范,其作者已经转移到其他项目。重新将DCAM作为指定与rdf兼容的元数据记录的基础,需要比DCMI(一个资金不多的词汇表维护组织和元数据社区平台)所能承担的更多资源——具有明确需求的作者、编辑和实实者。另一方面,将DCAM重新铸造为元模型的项目将需要同样多的努力,同时还需要为其在元数据领域中的功能和价值提供一个有充分根据的故事。实际上,DCMI几乎没有选择,只能保留规范,因为它们作为历史贡献的价值和作为其他项目需求来源的潜在价值,这里提供了状态澄清。

新加坡框架中概述的基于dcam的应用程序概要的方法是尝试自动化开发周期,从功能需求到领域模型的开发,根据定义的约束对领域模型中的实体进行描述,并在此基础上生成与RDF兼容的元数据记录格式。

然而,如何应对这一挑战仍然是一个有待研究的问题。多年来,“结构约束”和“验证”的替代方法已经在都柏林核心™和语义Web社区中进行了探索。在2007年,Alistair Miles提出了“Son of Dublin Core™”,这是一种使用具体的XML语法以及在元数据图上表达特定于应用程序的语法约束的语言来编码和验证“基于图的元数据”的方法。

在验证RDF三元组质量的名义下,有人提出了一些建议,比如Clark & Parsia的“完整性约束验证器”Pellet,它将OWL“作为RDF数据的模式或验证语言,通过自动生成的SPARQL查询,可以在任何支持SPARQL的RDF存储上执行”,通过使用封闭世界假设来解释OWL本体,以检测约束违反。

Dan Brickley提出了一个更加多元化和兼收并蓄的做法到包含广泛的人类可读和机器可处理的用于记录元数据模式的方法的应用程序配置文件,从使用的简单名称空间列表到Web文档、元数据示例和示例查询

DCMI认识到,作为关联数据公开的数据的验证和质量控制仍然是一个至关重要的问题,也许现在比以往任何时候都更重要,但DCMI承认,这个问题只能由能够持续推动其解决方案的组织或项目来解决。