元数据设计,实施和最佳实践的创新

Metadata语义在跨语言共享

创造者: 汤姆贝克
发行日期: 1997-03-15
最新版本: //www.voudr.com/specifications/dublin-core/multilingual-semantics/
发布历史: //www.voudr.com/specifications/dublin-core/multilingual-semantics/release_history/
描述: 讨论了在英语以外的语言中实施都柏林核心的问题。

Dublin Core™是一组15个基本类别(如创建者、标题、主题和出版者)用于描述信息资源(参见//www.voudr.com/).当嵌入到worldwide Web上的文档中时,这些核心描述可以通过全局索引服务提取出来,以便像图书馆目录一样使用。都柏林核心™的一些第一批采用者欣赏这15个基本类别的一般简单性,并“按原样”使用它们——让我们称他们为“极简主义者”。另一些人——让我们称他们为“结构主义者”——使用限定词来缩小核心类别的语义,用于特殊用途——例如,指定特定的“创造者”是“作曲家”,而不是“作者”或“摄影师”。都柏林核心™作为一个标准的成功将取决于它是否有能力满足结构主义者对这种特异性的需求,而不损害极简主义者所期望的15个广泛类别的语义完整性。

到目前为止,Dublin Core™都是用英语定义和实现的。然而,这十五种基本类别在“极简主义”意义上的含义也可以用法语、德语、日语或泰国语来解释。Dublin Core™可能成为具有国际主义思想的图书馆员长期以来一直回避的东西:一个跨越多种语言和科学学科的简单描述模型。

但是,如果Dublin Core™要满足跨多种语言的专家的需求,它还必须允许使用这些语言的用户定义他们自己的限定符。由于到目前为止,Dublin Core™只在英语和万维网上使用,其中索引标记必须仅使用英语字母,因此它的设计者还没有必须处理多种语言和字母中的多组标记和限定符。(请注意,Dublin Core™本身的语言独立于所描述的文件的语言;使用Thai Dublin Core™创建的记录可以参考日文文章。)

这些问题最近在1997年3月3日至5日在澳大利亚堪培拉举行的第四届都柏林核心™研讨会上进行了讨论(http://www.dstc.edu.au/DC4/).本文报告了一些得出的结论,以及一个分组的共识,即我们如何才能朝着可管理的多元都柏林核心语言(除英语外)迈进。

为了索引和搜索的目的,可以通过15个机器可读的索引标签(更一般地说,让我们称它们为令牌)来保证以多种语言并行的Dublin Cores之间的等价性,它们代表15个核心类别。这些令牌与HTML一起嵌入到文档中(或其他可能放置元数据的地方),将标记用于自动Web索引器的核心元素。无论是好是坏,目前用于此的标记都是英语单词,而且目前很可能仍然如此,就像Web文档的HTML标记和大多数计算机编程语言的功能词都是类似英语的一样。

但当我们考虑限定词时,问题就更加复杂了。限定符在用户社区共享的范围内保证更精确语义的互操作性。类似地,它们将保证跨语言的互操作性,在某种程度上,它们将在都柏林核心之间以不同的语言共享。一些限定符,如“author”,在全世界都是有用的,并且可能具有通用标记。因此,人们可以搜索一个作者,而不管搜索表单上标注的是“作者”还是“作者”(泰语为“作者”)。

但是,随着Web越来越多地用于本地和区域目的,限定符似乎将会激增,人们将不再需要这些广泛共享的概念所提供的全球互操作性。随着Dublin Core™被更广泛地采用,基于web的注册中心将演变为记录这些限定符(本地和通用的)以及它们的令牌和定义。可以想象,Dublin Core™的泰国注册表列出了大约50个与其他Dublin Core共享的限定词,以及特定于泰国语言和泰国编目实践的限定词。

对于泰语中的Dublin Core™,理想情况下,有一个框架用于定义两个并行令牌的框架,用于限定者:一组在泰语和字母表中表达的本地令牌,以及一组用于这些限定符的匹配通用令牌与其他都柏林核心分享。没有通用等同物的本地代币,同时在本地有用,将只是通过全球履带服务忽略。泰国创建的记录,使用本地限定符,并由忽略这些限定符的全球爬虫服务索引,仍然可以通过十五个核心类别的“极简主义”搜索在法国中检索法国。

由于几个原因,这种理想不能轻易地用今天的Web技术实现。元数据的当前HTML格式(META标记)没有提供任何标准方法来区分全局标记和本地标记。在HTML中,机器可读的符号——无论是通用的还是本地的——必须用7位ASCII(从A到Z的英文字母,加上数字)表示。

只是如何严重这些障碍用于以英语语言部署Dublin Core™,部分地部分取决于元数据如何将在将来创建。如果我们假设元数据将在很大程度上通过手工键入 - 以及今天创建网页的最受欢迎的程序是Microsoft的记事本,这是一个简单的文本编辑器 - 那么ASCII的限制将是一个真正的问题。但是,用户更有可能将其描述为弹出形式,也许是有帮助菜单和验证程序。软件将处理正确格式化元数据以及使用相应的令牌。在这种受控环境中,可以通过使用音译来围绕ASCII的局限性:用户将在泰语字母中键入限定符,软件将对ASCII执行必要的转换。当然,原始结果可能不再用纯文本编辑器母语完全理解或编辑,所以也许有人会反对这种解决办法的原则的理由。

幸运的是,ASCII和HTML的这些限制似乎很有可能在未来一两年内被新技术所超越。标签名称的字符集限制将随着7位ASCII被16位Unicode所取代而消失,16位Unicode是一种包含世界上最常见脚本的所有字符的编码表。两种新的Web格式将超越元数据标签的限制:pic - ng和Web Collections。PICS最初设计用于支持对互联网内容进行评级的系统(例如,允许用户阻止对色情内容的访问),但它正在演变为一个通用系统,在该系统中,许多语言的标签和本地令牌可以映射到通用元数据结构(参见http://www.w3.org/pub/WWW/PICS/).Web Collections是设计一种通用方法来定义元数据集(参见http://www-ee.technion.ac.il/W3C/WebCollection.html).

pic - ng和Web Collections都将实现多个都柏林核心所需的基本元素:全局令牌、本地令牌和本地描述。此外,这两种元数据框架都是由资源描述、注释、数字签名、数字现金和资源描述等领域的专家组成的异构社区开发的,并且得到了最大软件公司的支持。事实上,这些举措正在塑造HTML本身的下一个大版本。这两项提议很有可能在1997年6月得到世界网络联盟(W3C)的批准,在那之后,只需要几个月到一年的时间,稳定的浏览器、服务器和工具就会进入市场。对于堪培拉研讨会上有兴趣用英语以外的语言创建Dublin Cores的参与者来说,预测这些新的解决方案似乎比投入大量精力扩展今天的HTML更明智。

在等待部署的同时,社区可以将Dublin Core™翻译成各种语言。这些翻译需要进行讨论和修改,直到它们真正对母语人士有意义为止。最终的描述需要尽可能精确地反映15个基本核心元素的意图和语义范围。除此之外,在英语模式中,当地需求将决定修饰语的选择以及他们与修饰语的通信或非通信。

作为简单的第一步,似乎有必要在Web页面上提供除英语以外的其他语言的都柏林核心的描述,可能还会有限定词列表、解释性材料和用法示例。这些网站可以相互链接;实际上,例如,Subject元素的泰语描述可能有用地与该元素的英语和德语描述相链接。帮助页面可能会描述使用通用限定符的优点。也许这些相互链接的Web服务器可以为未来更高级的注册中心服务提供一个平台,例如跨语言的元素值自动查找,这可以以我们还无法清晰想象的方式帮助检索。在这种对等服务器的基础架构中,没有哪个模型(从逻辑上讲)会占主导地位,而英语版本的Dublin Core™现在就是这样。

来自若干国家的研究人员表示兴趣建立都柏林核心,项目已经在柏林在洪堡大学与Max Planck Institute和曼谷合作,并在国家科学和技术开发机构的技术信息访问中心合作.已经建立了邮件列表,以便以多种语言讨论都柏林核心,并预见到了其他研讨会。有关详细信息,请联系Tom Baker[电子邮件受保护]

最初于1997年4月21日发布。案文更改,1997年8月27日:将“专家”改为“结构学家”。