博物馆标本标签的自动元数据提取

P. Bryan Heidorn,秦威

抽象的


本文介绍了博物馆的信息属性
标本标签和机器学习工具,用于自动提取达尔文核心
(DWC)和来自这些标签的其他元数据通过光学字符处理
识别(OCR)。DWC是描述核心访问集的元数据配置文件
搜索和检索自然历史收集和观察点
数据库。使用Herbis学习系统(HLS),我们提取74个独立元素
来自这些标签。自动文本提取工具作为Web服务提供
使用户可以参考标本的数字图像并收到延长
达尔文核心XML表示标签内容。这种自动化
通过博物馆标签的高可变性,提取任务更加困难
格式,OCR错误和某些元素的开放类性质。在本文中,我们
介绍我们的整体系统架构,可变性鲁棒解决方案
包括隐马尔可夫和天真贝叶斯机器学习模型的应用,
数据清洁,使用现场元素标识符和专业学习模型。这
这里开发的技术可以适应任何元数据提取情况
嘈杂的文本和弱订购的元素。

全文:

PDF.