元数据设计、实施和最佳实践方面的创新

Dublin Core™在多语言工作组中 - 跨语言元数据语义:除了英语工作草案之外的语言的Dublin核心

标题:

Metadata语义共享语言:Dublin Core™以英语以外的语言

创造者:
发行日期:
1997 - 03
标识符:
替换:
不适用
被替换为:
不适用
最新版本:
文件的状态:
这是一个dcmi工作草案
文件描述: 关于英语语言的语言围绕Dublin Core™的实施问题的讨论。

Dublin Core™是一组十五类基本类别(如创建者,标题,主题和发布者),用于描述信息资源(见//www.voudr.com/)。当嵌入全球网络上的文档时,可以通过全局索引服务来提取这些核心描述,以便使用一种库目录。Dublin Core™的一些采用者欣赏这十五类基本类别的通用简单,并使用它们“原样” - 让我们称之为“极简主义”。其他 - 让我们称之为“结构主义者” - 使用限定符来缩小专门用途的核心类别的语义 - 例如,指定特定的“创作者”是“作曲家”,而不是“作者”或者“摄影师”。Dublin Core™作为标准的成功将取决于其满足这种特异性的结构主义者需求的能力,而不会影响最低分子预期的十五个广泛类别的语义完整性。

到目前为止,Dublin Core™已被定义和实施。然而,这十五类基本类别的含义也可以用法语,德语,日语或泰语解释。Dublin Core™可能成为长期成的国际主义图书馆员的那个:一个简单的描述模型在许多语言和科学学科中一致。

但是,如果都柏林核心™是满足许多语言的专家的需要,它也必须允许这些语言中的用户来定义自己的限定员。由于Dublin Core™到目前为止仅在英语和全球Web上使用,因此索引标签必须仅使用英文字母,其设计人员尚未以多种语言应对多组标签和限定符和字母。(请注意,Dublin Core™本身的语言与所描述的文件语言无关;用泰国Dublin Core™创建的记录可以参考日语文章。)

最近在澳大利亚堪培拉的第四位Dublin Core™研讨会上讨论了这些问题,1997年3月3日至5日(http://www.dstc.edu.au/dc4/)。本文报告了一些结论达成了一些结论,以及关于我们如何在英语之外的语言中达到可管理的多柏林核心的可管理多种核心的结论以及突破集团的共识。

出于索引和搜索的目的,可以通过一套多六种机器可读索引标签来确保双语中双语之间的等同性,让我们更慷慨地称为十五个核心类别。这些令牌嵌入文档中的HTML(或可以放置在否则元数据),将标记自动Web索引器的核心元素。无论好坏,目前用于此类的令牌都是英语单词,现在很可能仍然存在,就像Web文档的HTML标签一样,大多数计算机编程语言的功能单词是英语。

但是当我们考虑限定符时,问题更为复杂。限定符保证了更多精确语义的互操作性,以便用户社区共享。同样,他们会保证跨语言的互操作性,以便他们在不同语言中都在都柏林核心之间分享。少数限定者,如“作者”,将在世界各地都有用,可能会有普遍的代币。因此,可以搜索作者,无论搜索表单是否标记为它“作者”或“泰拳”(泰国的“作者”)。

但随着网络越来越多地用于本地和区域目的,似乎有可能将延长哪一个不需要这种广泛共享的概念所提供的全球互操作性。随着都柏林核心™更广泛地,基于网络的注册管理机构将演变为将这些限定员提供本地和普遍,以及其令牌和定义。人们可以为Dublin Core™的泰语注册表列出,列出了与其他Dublin核心共享的五十个或如此的限定员,与特定于泰语语言和泰语编目练习的限定员。

都柏林核心™在泰国,一个理想的要一个框架限定符定义两组平行的令牌:一套当地的令牌在泰国语言表达和字母,和一组匹配的通用标记与其他都柏林核心共享这些限定符。没有通用等价物的本地令牌虽然在本地有用,但会被全局爬虫服务忽略。在泰国创建的记录,使用本地限定符,并由忽略这些限定符的全局爬虫服务索引,仍然可以通过对15个核心类别的“极简”搜索在法国检索。

由于几个原因,这种理想不能随着当今的网络技术实现。Metadata(元标记)的当前HTML格式不提供区分全局和本地标记的任何标准方法。在HTML中,机器可读令牌 - 无论是通用还是本地 - 必须以7位ASCII(来自A到Z,Plus数字的英文字母表)表示。

对于以英语以外的语言部署Dublin Core™来说,这些障碍有多严重,部分取决于将来如何创建元数据。如果我们假设元数据主要是手工输入的——而现在创建网页最流行的程序是Microsoft的Notepad,一个简单的文本编辑器——那么ASCII的限制将是一个真正的问题。然而,用户更有可能在弹出式表单中输入他们的描述,可能会有帮助菜单和验证过程。软件将负责正确格式化元数据并使用适当的令牌。在这种受控制的环境中,可以通过使用音译来绕过ASCII的限制:用户将键入一个泰国字母限定符,软件将执行必要的ASCII转换。当然,使用纯文本编辑器,以英语为母语的人可能无法完全理解或编辑原始结果,因此有人可能会基于原则反对这种变通方法。

幸运的是,似乎可能会在明年或两两个人中通过新技术超越这些ASCII和HTML的限制。标签名称的字符集限制将逐渐消退为7位ASCII被16位Unicode替换为包含世界上最常见脚本的所有字符的代码表。元数据标记的局限将被两种新的Web格式超越:Pics-NG和Web集合。最初设计用于支持评级Internet内容的系统(例如,允许用户阻止访问色情)),但它正在发展到一个通用系统,其中许多语言中的标签和本地令牌可以映射到通用元数据结构上(看http://www.w3.org/pub/www/pics/)。Web集合是最近设计一般方式来定义元数据集的一般方法(参见http://www-ee.technion.ac.il/w3c/webcollection.html.)。

Pics-NG和Web集合都将实现多个Dublin核心所需的基本元素:全局令牌,本地标记和本地描述。此外,这两个元数据框架都是由资源描述,注释,数字签名,数字现金和资源描述中的专家的异社群开发,并且他们拥有最大的软件公司的支持。实际上,这些举措正在塑造下一个大版本的HTML本身。这两项提案都可以由1997年6月的全球网络联盟(W3C)制裁,之后,它希望几个月到一年的稳定浏览器,服务器和工具市场。对于堪培拉研讨会的参与者有兴趣用英语语言创建都柏林核心,似乎更明智地预测这些新的解决方案,而不是在扩展今天的HTML方面投入大量的能量。

在等待此部署时,社区可以在翻译Dublin Core™中的各种语言。这些翻译需要讨论和重新加工,直到他们对母语人士们真正有意义。由此产生的描述需要尽可能地反映十五个基本核心元素的意图和语义范围。除此之外,本地需求将决定对英语模型中的限定符的限定员及其对应或非对应的选择。

作为一个简单的第一步,它似乎希望在网页上可用的英语中可用的语言描述都柏林核心,或许有限定者列表,解释性材料和使用示例。这些网站之间可以链接;实际上,泰语描述说,主题元素可能会与英语和德语的该元素的描述相关联。帮助页面可能会描述使用通用限定符的优势。也许这些互通的Web服务器可以为将来更高级的注册表服务提供平台,例如跨语言的元素值的自动查询,这可以通过方式帮助检索我们无法清楚地想象。在对等服务器的这样的基础架构中,没有一个模型将占据统治(在逻辑意义上),因为现在是英语Dublin Core™。

来自几个国家的研究人员表示有兴趣建立都柏林核心区,该项目已经在柏林、洪堡大学与马克斯·普朗克研究所合作,以及在曼谷、国家科学技术发展局的技术信息获取中心进行。已经建立了一个邮寄名单,以多种语言讨论都柏林核心会议,预计还将举办更多的讲习班。欲了解更多信息,请与Tom Baker联系(电子邮件保护)

最初发布1997年4月21日。文本的变更,1997年8月27日:用“结构主义者”取代了“专家”。