博物馆标本标签的自动元数据提取
抽象的
本文介绍了博物馆的信息属性
标本标签和机器学习工具,用于自动提取达尔文核心
(DWC)和来自这些标签的其他元数据通过光学字符处理
识别(OCR)。DWC是描述核心访问集的元数据配置文件
搜索和检索自然历史收集和观察点
数据库。使用Herbis学习系统(HLS),我们提取74个独立元素
来自这些标签。自动文本提取工具作为Web服务提供
使用户可以参考标本的数字图像并收到延长
达尔文核心XML表示标签内容。这种自动化
通过博物馆标签的高可变性,提取任务更加困难
格式,OCR错误和某些元素的开放类性质。在本文中,我们
介绍我们的整体系统架构,可变性鲁棒解决方案
包括隐马尔可夫和天真贝叶斯机器学习模型的应用,
数据清洁,使用现场元素标识符和专业学习模型。这
这里开发的技术可以适应任何元数据提取情况
嘈杂的文本和弱订购的元素。
标本标签和机器学习工具,用于自动提取达尔文核心
(DWC)和来自这些标签的其他元数据通过光学字符处理
识别(OCR)。DWC是描述核心访问集的元数据配置文件
搜索和检索自然历史收集和观察点
数据库。使用Herbis学习系统(HLS),我们提取74个独立元素
来自这些标签。自动文本提取工具作为Web服务提供
使用户可以参考标本的数字图像并收到延长
达尔文核心XML表示标签内容。这种自动化
通过博物馆标签的高可变性,提取任务更加困难
格式,OCR错误和某些元素的开放类性质。在本文中,我们
介绍我们的整体系统架构,可变性鲁棒解决方案
包括隐马尔可夫和天真贝叶斯机器学习模型的应用,
数据清洁,使用现场元素标识符和专业学习模型。这
这里开发的技术可以适应任何元数据提取情况
嘈杂的文本和弱订购的元素。