元数据设计、实施和最佳实践方面的创新

DCMI本地化和国际化社区

Metadata语义共享语言:Dublin Core™以英语以外的语言

地点:
堪培拉,澳大利亚
会议日期:
1997-03-03 - 1997-03-05
召集人:
托马斯•贝克(电子邮件保护),泰国曼谷,国家科技发展署
版本:
报告发布时间:1997-08-27

Dublin Core™是一组15个基本类别(如创建者、标题、主题和出版者)用于描述信息资源(参见//www.voudr.com/).当嵌入全球网络上的文档时,可以通过全局索引服务来提取这些核心描述,以便使用一种库目录。Dublin Core™的一些采用者欣赏这十五类基本类别的通用简单,并使用它们“原样” - 让我们称之为“极简主义”。其他 - 让我们称之为“结构主义者” - 使用限定符来缩小专门用途的核心类别的语义 - 例如,指定特定的“创作者”是“作曲家”,而不是“作者”或者“摄影师”。Dublin Core™作为标准的成功将取决于其满足这种特异性的结构主义者需求的能力,而不会影响最低分子预期的十五个广泛类别的语义完整性。

到目前为止,Dublin Core™都是用英语定义和实现的。然而,这十五种基本类别在“极简主义”意义上的含义也可以用法语、德语、日语或泰国语来解释。Dublin Core™可能成为具有国际主义思想的图书馆员长期以来一直回避的东西:一个跨越多种语言和科学学科的简单描述模型。

但是,如果都柏林核心™是满足许多语言的专家的需要,它也必须允许这些语言中的用户来定义自己的限定员。而且,由于都柏林睿™迄今只用英语和万维网,其中索引标签只能使用英文字母上,它的设计者尚未有应付多套标签和预选赛多种语言和字母。(请注意,Dublin Core™本身的语言与所描述的文件语言无关;用泰国Dublin Core™创建的记录可以参考日语文章。)

这些问题最近在1997年3月3日至5日在澳大利亚堪培拉举行的第四届都柏林核心™研讨会上进行了讨论(http://www.dstc.edu.au/dc4/).本文报告了一些得出的结论,以及一个分组的共识,即我们如何才能朝着可管理的多元都柏林核心语言(除英语外)迈进。

为了索引和搜索的目的,可以通过15个机器可读的索引标签(更一般地说,让我们称它们为令牌)来保证以多种语言并行的Dublin Cores之间的等价性,它们代表15个核心类别。这些令牌与HTML一起嵌入到文档中(或其他可能放置元数据的地方),将标记用于自动Web索引器的核心元素。无论是好是坏,目前用于此的标记都是英语单词,而且目前很可能仍然如此,就像Web文档的HTML标记和大多数计算机编程语言的功能词都是类似英语的一样。

但当我们考虑限定词时,问题就更加复杂了。限定符在用户社区共享的范围内保证更精确语义的互操作性。类似地,它们将保证跨语言的互操作性,在某种程度上,它们将在都柏林核心之间以不同的语言共享。一些限定符,如“author”,在全世界都是有用的,并且可能具有通用标记。因此,人们可以搜索一个作者,而不管搜索表单上标注的是“作者”还是“作者”(泰语为“作者”)。

但是,随着Web越来越多地用于本地和区域目的,限定符似乎将会激增,人们将不再需要这些广泛共享的概念所提供的全球互操作性。随着Dublin Core™被更广泛地采用,基于web的注册中心将演变为记录这些限定符(本地和通用的)以及它们的令牌和定义。可以想象,Dublin Core™的泰国注册表列出了大约50个与其他Dublin Core共享的限定词,以及特定于泰国语言和泰国编目实践的限定词。

都柏林核心™在泰国,一个理想的要一个框架限定符定义两组平行的令牌:一套当地的令牌在泰国语言表达和字母,和一组匹配的通用标记与其他都柏林核心共享这些限定符。没有通用等价物的本地令牌虽然在本地有用,但会被全局爬虫服务忽略。在泰国创建的记录,使用本地限定符,并由忽略这些限定符的全局爬虫服务索引,仍然可以通过对15个核心类别的“极简”搜索在法国检索。

由于几个原因,这种理想不能随着当今的网络技术实现。Metadata(元标记)的当前HTML格式不提供区分全局和本地标记的任何标准方法。在HTML中,机器可读令牌 - 无论是通用还是本地 - 必须以7位ASCII(来自A到Z,Plus数字的英文字母表)表示。

对于以英语以外的语言部署Dublin Core™来说,这些障碍有多严重,部分取决于将来如何创建元数据。如果我们假设元数据主要是手工输入的——而现在创建网页最流行的程序是Microsoft的Notepad,一个简单的文本编辑器——那么ASCII的限制将是一个真正的问题。然而,用户更有可能在弹出式表单中输入他们的描述,可能会有帮助菜单和验证过程。软件将负责正确格式化元数据并使用适当的令牌。在这种受控制的环境中,可以通过使用音译来绕过ASCII的限制:用户将键入一个泰国字母限定符,软件将执行必要的ASCII转换。当然,使用纯文本编辑器,以英语为母语的人可能无法完全理解或编辑原始结果,因此有人可能会基于原则反对这种变通方法。

幸运的是,似乎可能会在明年或两两个人中通过新技术超越这些ASCII和HTML的限制。标签名称的字符集限制将逐渐消退为7位ASCII被16位Unicode替换为包含世界上最常见脚本的所有字符的代码表。元数据标记的局限将被两种新的Web格式超越:Pics-NG和Web集合。最初设计用于支持评级Internet内容的系统(例如,允许用户阻止访问色情)),但它正在发展到一个通用系统,其中许多语言中的标签和本地令牌可以映射到通用元数据结构上(看http://www.w3.org/pub/WWW/PICS/).Web集合是最近设计一般方式来定义元数据集的一般方法(参见http://www-ee.technion.ac.il/W3C / WebCollection.html)。

Pics-NG和Web集合都将实现多个Dublin核心所需的基本元素:全局令牌,本地标记和本地描述。此外,这两个元数据框架都是由资源描述,注释,数字签名,数字现金和资源描述中的专家的异社群开发,并且他们拥有最大的软件公司的支持。实际上,这些举措正在塑造下一个大版本的HTML本身。这两项提案都可以由1997年6月的全球网络联盟(W3C)制裁,之后,它希望几个月到一年的稳定浏览器,服务器和工具市场。对于堪培拉研讨会的参与者有兴趣用英语语言创建都柏林核心,似乎更明智地预测这些新的解决方案,而不是在扩展今天的HTML方面投入大量的能量。

在等待部署的同时,社区可以将Dublin Core™翻译成各种语言。这些翻译需要进行讨论和修改,直到它们真正对母语人士有意义为止。最终的描述需要尽可能精确地反映15个基本核心元素的意图和语义范围。除此之外,在英语模式中,当地需求将决定修饰语的选择以及他们与修饰语的通信或非通信。

作为简单的第一步,似乎有必要在Web页面上提供除英语以外的其他语言的都柏林核心的描述,可能还会有限定词列表、解释性材料和用法示例。这些网站可以相互链接;实际上,例如,Subject元素的泰语描述可能有用地与该元素的英语和德语描述相链接。帮助页面可能会描述使用通用限定符的优点。也许这些相互链接的Web服务器可以为未来更高级的注册中心服务提供一个平台,例如跨语言的元素值自动查找,这可以以我们还无法清晰想象的方式帮助检索。在这种对等服务器的基础架构中,没有哪个模型(从逻辑上讲)会占主导地位,而英语版本的Dublin Core™现在就是这样。

来自几个国家的研究人员表示有兴趣建立都柏林核心区,该项目已经在柏林、洪堡大学与马克斯·普朗克研究所合作,以及在曼谷、国家科学技术发展局的技术信息获取中心进行。已经建立了一个邮寄名单,以多种语言讨论都柏林核心会议,预计还将举办更多的讲习班。欲了解更多信息,请与Tom Baker联系(电子邮件保护)

最初发布于1997年4月21日。1997年8月27日的文章变更:用“结构主义者”取代了“专家”。