[1]孙 安 于英香 罗永刚 孙 逊.序列标注模型中不同输入特征组合的集成学习与直推学习方法研究*———以CCKS-2018 电子病历命名实体识别任务为例[J].情报杂志,2019,(10):176.
点击复制

序列标注模型中不同输入特征组合的集成学习与直推学习方法研究*———以CCKS-2018 电子病历命名实体识别任务为例()
分享到:

《情报杂志》[ISSN:1002-1965/CN:61-1167/G3]

卷:
期数:
2019年10期
页码:
176
栏目:
出版日期:
2019-10-10

文章信息/Info

Title:
Research on Ensemble Learning of Different Input Feature Combinations andTransductive Learning in Sequence Labeling Model—A Case Study about Clinical Named Entity Recognition of CCKS-2018
作者:
孙 安12 于英香1 罗永刚13 孙 逊14
1. 上海大学图书情报档案系 上海 200444; 2. 河南科技大学图书馆 洛阳 471023;3. 上海健康医学院医疗器械学院 上海 201318;4. 上海交通大学钱学森图书馆 上海 200030
关键词:
命名实体识别特征提取集成学习直推学习电子病历
摘要:
[目的/ 意义] 研究机器学习中集成学习与直推学习方法对电子病历命名实体识别任务的性能影响,为基于机器学习方法的文本信息抽取提供一种性能优化方法。[方法/ 过程]首先对CCKS-2018 提供的电子病历文本进行分析,提取中文分词、词性标注、临床实体类别特征;然后在条件随机场CRF 算法下,采用不同输入特征组合的方法构造“基学习器”进行投票集成;最后用直推学习方法对集成学习结果进行优化。[ 结果/ 结论] 实验中集成学习获得总体效果F1 值86. 93%均优于“基学习器”结果值,直推学习获得了模型的最佳泛化性能87. 06%,同时多特征组合比单独字特征可以获得更好的“基学习器”。实验证明采用不同输入特征组合的集成学习和直推学习可以有效提升模型的泛化性能,该方法可以在其他相关机器学习与文本信息抽取领域中推广。

相似文献/References:

[1]方小容,高档妮.基于同被引技术的科技人才群体结构特征的比较研究[J].情报杂志,2010,(09):21.
[2]刘宇飞 尹 力 张 凯 杨建中 郑文江.基于深度迁移学习的技术术语识别*———以数控系统领域为例[J].情报杂志,2019,(10):168.

更新日期/Last Update: 1900-01-01