任智慧
- 作品数:3 被引量:78H指数:2
- 供职机构:中国科学院上海高等研究院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于链式条件随机场的中文分词改进方法被引量:10
- 2016年
- 基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。
- 徐浩煜任智慧施俊周晗
- 关键词:中文分词词位标注条件随机场
- 基于LSTM网络的序列标注中文分词法被引量:69
- 2017年
- 当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。
- 任智慧徐浩煜封松林周晗施俊
- 关键词:中文分词自然语言处理
- 基于多传感器信息融合的物体材质识别方法
- 本发明提供一种多传感器信息融合的物体材质识别方法,包括步骤:首先,提供至少三种传感器,然后利用所述传感器向待识别物体发射源信号,分别采集所述待识别物体在所述源信号照射下发射的特征信号,或者直接利用所述传感器采集待识别物体...
- 徐浩煜封松林谷重阳周晗韩振奇任智慧
- 文献传递