元数据设计、实施和最佳实践方面的创新

教程:Annif和自动主题索引介绍

标题: 介绍Annif和自动主题索引
日期: 2020-09-21 07:00
资源:

Osma Suominen
Osma Suominen
芬兰国家图书馆
Osma Suominen是芬兰国家图书馆的一名信息系统专家。他目前致力于自动主题索引,特别是Annif工具和Finto AI服务,以及以关联数据的形式出版书目数据。他也是Finto的创造者之一。fi同义词典和本体服务,并在Finto中使用的Skosmos词汇浏览器的领先开发。Osma Suominen在阿尔托大学(Aalto University)获得了博士学位,同时在FinnONTO系列项目中从事语义门户和受控词汇表质量的研究。

Koraljka Golub
Koraljka Golub
林奈大学
Koraljka Golub是林奈大学图书馆与信息学教授。她是林奈大学(Linnaeus University) isschool研究所的负责人,也是数字人文学科硕士项目的协调员。她的研究集中在人工,自动和协作的方法的知识组织的目的,信息检索。她曾从事与使用叙词和分类方案的自动主题索引相关的研究项目,包括主题特定(工程索引)和一般(杜威十进制分类法,国会图书馆主题标题)。建立自动化主题标引的评价模型及其更复杂的替代方案也一直是她的研究重点。

Annemieke Romein
Annemieke Romein
知道惠更斯荷兰历史研究所
安妮米克·罗曼(Annemieke Romein)是荷兰惠更斯历史研究所的博士后研究员。她是一位早期现代历史学家,研究政治、法律历史和数字人文学科的交叉。她主要从比较的角度研究早期现代立法。她目前的项目是《权力的游戏?——讲述了三个早期现代共和国(伯尔尼、荷兰和盖尔德兰)如何处理秩序问题。2019年,她在荷兰KB国家图书馆担任驻院研究员,在那里,她与Sara Veldhoen和Michel de Gruijter合作,研究早期现代法令卷中独立法律的自动元数据处理。

莎拉如今
莎拉如今
荷兰国家图书馆
萨拉·费尔德霍恩(Sara Veldhoen)是荷兰国家图书馆KB研究部的一名研究软件工程师。她是一个研究小组的活跃成员,该研究小组探索围绕自动元数据生成的可能性,以帮助编目出版物的人,重点是使用Annif和作者索引的主题索引。她还参与了KB的驻院研究员项目,在那里,她与外部研究员就他们提出的项目合作,比如安妮米克·罗曼(Annemieke Romein)的项目。萨拉·费尔德霍恩(Sara Veldhoen)拥有阿姆斯特丹大学(University of Amsterdam)的人工智能硕士学位,在那里她研究的是神经网络中的语言组合。

摘要
手动索引文档以实现基于主题的访问是一个非常劳动密集型的智能过程。机器可以更快地完成类似的主题索引。在这一系列的演示和演示中,我们将展示自动主题索引的实际例子,并讨论如何评估这样的系统。

在这个演示的第一部分,Osma Suominen将介绍自动主题索引的一般思想使用控制词汇,如同义词典或分类系统;以及开源的自动主题索引工具Annif,该工具集成了几种不同的机器学习算法用于文本分类。通过结合多种方法,Annif可以适应不同的环境。该工具可以用于任何词汇;并且,有了适当的训练数据,可以分析许多不同语言的文档。Annif既是一个命令行工具,也是一个可以与其他系统集成的微服务风格的API服务。我们将演示如何使用Annif来训练使用现有书目数据库的元数据的模型,以及如何为新的、未见的文档提供主题建议。

在报告的第二部分,Koraljka Golub将讨论评估自动主题索引系统的话题。在评价中有许多挑战,例如缺乏黄金标准来进行比较,主题索引固有的主观性,在典型环境中相对较低的索引间一致性,以及占主导地位的非上下文的、实验室式的评价方法。

在报告的第三部分,annemike Romein和Sara Veldhoen将介绍一个案例研究,研究他们如何在数字人文研究项目中应用Annif,使用分层主题词汇和预先训练的集合对早期现代立法文本进行分类。

对于想要学习如何使用Annif工具的实践者,也有一个后续实践教程.该动手教程包括简短的预先录制的视频演示,书面说明和实践练习,解释和介绍Annif的各个方面及其使用。