标题: | 介绍Annif和自动主题索引 |
日期: | 2020-09-21 07:00 |
资源: |
在这个演示的第一部分,Osma Suominen将介绍自动主题索引的一般思想使用控制词汇,如同义词典或分类系统;以及开源的自动主题索引工具Annif,该工具集成了几种不同的机器学习算法用于文本分类。通过结合多种方法,Annif可以适应不同的环境。该工具可以用于任何词汇;并且,有了适当的训练数据,可以分析许多不同语言的文档。Annif既是一个命令行工具,也是一个可以与其他系统集成的微服务风格的API服务。我们将演示如何使用Annif来训练使用现有书目数据库的元数据的模型,以及如何为新的、未见的文档提供主题建议。
在报告的第二部分,Koraljka Golub将讨论评估自动主题索引系统的话题。在评价中有许多挑战,例如缺乏黄金标准来进行比较,主题索引固有的主观性,在典型环境中相对较低的索引间一致性,以及占主导地位的非上下文的、实验室式的评价方法。
在报告的第三部分,annemike Romein和Sara Veldhoen将介绍一个案例研究,研究他们如何在数字人文研究项目中应用Annif,使用分层主题词汇和预先训练的集合对早期现代立法文本进行分类。
对于想要学习如何使用Annif工具的实践者,也有一个后续实践教程.该动手教程包括简短的预先录制的视频演示,书面说明和实践练习,解释和介绍Annif的各个方面及其使用。