[1]孙 源.基于Word2Vec 的SCI 地址字段数据清洗方法研究[J].情报杂志,2019,(02):195.
点击复制

基于Word2Vec 的SCI 地址字段数据清洗方法研究()
分享到:

《情报杂志》[ISSN:1002-1965/CN:61-1167/G3]

卷:
期数:
2019年02期
页码:
195
栏目:
出版日期:
2019-02-18

文章信息/Info

Title:
Research on SCI Address Field Data Cleaning MethodBased on Word2Vec
作者:
孙 源
中国科学院武汉文献情报中心 武汉 430071
关键词:
数据清洗 Word2Vec 词向量模型 SCI 地址字段
摘要:
[目的/ 意义]旨在设计一种有效针对SCI 地址字段的数据清洗方案,将Word2Vec 词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI 地址字段中机构名称的不同写法,最终建立“机构名称映射表”,达到数据清洗的目的。[方法/ 过程]首先,对SCI 地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec 模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立“机构名称映射表”完成清洗。[结果/ 结论] 通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40 倍。Word2Vec 词向量模型在数据清洗中有一定应用价值,能够根据SCI 地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。
更新日期/Last Update: 1900-01-01