谢俊
- 作品数:9 被引量:2H指数:1
- 供职机构:昆明理工大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理语言文字文化科学更多>>
- 基于HDP的主题词向量构造——以柬语为例
- 2020年
- 针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。
- 李超李超严馨徐广义谢俊莫源源
- 昆明市主导产业选择研究
- 区域产业结构的演进取决于区域主导产业的演进,主导产业的演进则由区域经济发展阶段所决定。区域在不同的发展阶段,具有不同的主导产业。在一个区域内,各个产业的地位、作用不是一成不变的,随着经济发展阶段的转换,区域发展的因素和条...
- 谢俊
- 关键词:主导产业
- 文献传递
- 一种基于跨语言资源的柬语命名实体识别的方法
- 本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦...
- 严馨谢俊郭剑毅余正涛线岩团
- 文献传递
- 基于主题模型词向量的柬埔寨语命名实体识别
- 命名实体识别任务作为自然语言处理领域中的一项基本任务,其对于文本的理解和翻译均具有积极的推动作用。由于不同语言之间的差异性使得传统中英文命名实体技术难以移植到柬埔寨语上。为了丰富柬埔寨语自然语言处理工作的理论和应用,本文...
- 谢俊
- 关键词:命名实体识别神经网络
- 文献传递
- 一种基于跨语言资源的柬语命名实体识别的方法
- 本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦...
- 严馨谢俊郭剑毅余正涛线岩团
- 基于Tri-training的柬埔寨语组织机构名识别被引量:1
- 2018年
- 随着我国与柬埔寨的交流合作日益频繁,柬埔寨语的自然语言处理工作变得更为重要,针对柬埔寨语语料库资源有限、柬埔寨语组织机构名标注语料稀缺的问题,提出了一种基于半监督Tri-training的柬埔寨语组织机构名识别方法。该方法利用改进的Tri-training算法,结合柬埔寨语的语言特点进行实验。实验结果显示,准确率和召回率分别达到了65.68%、67.83%,表明该方法能有效利用大量未标注语料得到准确率较高的标注语料。
- 谢俊严馨王若兰周枫李思远
- 关键词:半监督学习
- 一种基于多特征神经网络的柬语实体识别的方法
- 本发明涉及一种基于多特征神经网络的柬语实体识别的方法,属于自然语言处理技术领域。本发明首先获取柬语单语文本语料并对得到的文本进行预处理;然后对预处理之后的文本使用工具Word2vec处理得到柬语单词的词向量,同时将预处理...
- 严馨谢俊徐广义张磊周枫郭剑毅
- 文献传递
- 昆明市选择主导产业的意义及政策建议
- 2005年
- 十六大提出了走新型工业化的道路来推进产业结构优化和全面建设小康社会的宏伟目标。各地区正在逐步改变过去追求经济门类齐全的做法,各自发挥比较优势发展有市场竞争优势的产业和产品,通过区域规划和政策,引导和调动地方政府的积极性.形成备具特色的区域经济。本文正是以此为契机分析昆明市选择主导产业的意义,并提出相关政策建议。
- 谢俊杨保建
- 关键词:主导产业全面建设小康社会区域经济新型工业化区域规划
- 一种基于主题模型词向量的神经网络柬语实体识别方法
- 本发明涉及一种基于主题模型词向量的神经网络柬语实体识别方法,属于自然语言处理技术领域。本发明先获取柬语文本语料并对语料进行预处理;然后构建主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;对...
- 严馨谢俊徐广义张磊周枫郭剑毅
- 文献传递