元数据设计,实施和最佳实践的创新

DCMI 2021:受邀演讲

实施标准:公共卫生和食品安全中的病原体基因组学背景数据(“元数据”)标准

艾玛·格里菲思

加拿大温哥华西蒙弗雷泽大学健康科学学院

全基因组测序(WGS)是追踪和了解影响环境、动物和人类健康的病原体传播的有力工具。背景数据("元数据")包括实验室(如检测日期和地点、周期阈值(CT)值)、临床(如住院、结果)、流行病学(如年龄、性别、暴露)和方法(抽样、测序、生物信息学(生物信息学),用于解释序列数据并为公共卫生和食品安全计划产生可操作的结果。上下文数据通常是根据当地需求和报告需求在特定项目的基础上收集的,这导致在不同的粒度级别收集不同的数据类型,具有不同的含义和隐含的变量和属性偏差。此外,信息通常以自由文本的形式收集,或者根据组织或计划特定的数据字典,使用不同的字段、术语、格式、缩写和行话进行结构化收集。私有数据库中信息编码方式的可变性往往会传播到公共存储库,这使得信息更难解释和使用。我们的工作重点是开发和实施上下文数据标准,以提高不同加拿大和国际倡议的数据协调和整合。我们的工作实例包括开发两个本体论——食品本体论(FoodOn)和基因组流行病学本体论(GenEpiO)——作为IRIDA项目(加拿大公共卫生综合快速传染病分析生物信息学平台)的一部分,这是食源性细菌基因组特征的ISO标准,以及SARS-CoV-2大流行基因组监测的国际标准。

(元)数据功能的政府

约翰•罗伯茨

安大略省首席隐私官员和档案馆(加拿大)

各国政府很快承认数据在其转换计划中的中心作用,但数据战略往往将元数据作为实现能力的隐含部分。本报告探讨了安大略省政府“构建数字安大略”战略中的数据和元数据。本文从记录管理、数据集成、网络安全、IT策略、隐私保护和信息访问等方面探讨了对高质量、标准化元数据的需求。

解决Europeana的多语言挑战:更新

安东尼·伊萨克和莫妮卡·马雷罗

欧洲人

2020年,Europeana制定了一项策略,以改善其用户的多语言体验,这些用户对访问Europeana在欧洲各地收集的大量数据集的需求和期望不断增长。在这次演讲中,我们将介绍这一策略,它受益于社区的反馈。首先,我们根据主要用例和我们将在多语言上下文中处理的数据类型来描述我们操作的上下文。然后,我们详细阐述了我们设想的解决方案,使底层(元)数据多语言,以支持多语言搜索,使数据在Europeana的门户网站上的语言可读,当它没有所需的语言时,总体上提高Europeana的利益相关者和合作伙伴网络解决多语言问题的能力。在第三部分中,我们介绍了设想的解决方案的各种元素是如何在西班牙语和英语的试点环境中进行试验的,其中构建了一个原型,以提供搜索和浏览,以交替访问两种语言的集合。

国家书目知识库和计划

尼尔格林德利

Jisc,内容和发现服务总监

开发一个新的联合目录,记录交付服务和收集管理工具,覆盖英国国家,学术和专业图书馆。建立书目元数据的国家许可协议,并对英国各地的供应链进行审查。