张华平
- 作品数:77 被引量:986H指数:11
- 供职机构:北京理工大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学经济管理语言文字更多>>
- WWW论坛采集关键技术研究被引量:1
- 2010年
- 论坛是互联网中最活跃的部分,蕴涵着丰富的信息。论坛采集是对论坛信息检索和挖掘的重要基础,然而传统的广度优先算法不能有效的获取论坛信息。针对论坛的深层链接、存在大量功能链接和无效链接及内容重复链接等特点,本文提出了一种论坛采集算法,能有效的解决以上难题。经过实验表明,论坛采集的覆盖率和有效率明显优于传统算法,并且应用在中科院计算所舆情监测平台上取得了良好的效果。
- 李恒训张华平刘金刚
- 关键词:信息检索舆情监测
- 一种基于线性约束矫正网络的场景文字识别方法
- 本发明公开了一种基于线性约束矫正网络的场景文字识别方法,属于图像文本识别检测技术领域。本方法通过卷积网络对文本图像提取几何特征,得到空间变换参数,基于空间变换网络得到的参数,对倾斜文本图像进行分割,得到水平文本图像;利用...
- 王刚张华平商建云
- 文献传递
- 气象落区文本自动生成研究被引量:7
- 2014年
- 面向天气预报和气象服务的文本内容的计算机自动或者半自动生成方法,对文本生成质量要求较高,即要准确、高效、合理,还需要符合自然语言表达,存在较多技术问题。在深入分析中央气象台每日发布的"天气公报"文本内容的基础上,结合地理信息科学和自然语言处理科学方法提出了面向气象落区文本语言生成的基本原理与流程,重点从历史文本内容分析与特征提取、地理区域划分、气象要素空间分析、文本组织与生成等关键技术问题进行了深入讨论,并给出了相应的技术实现。计算机自动生成结果与预报员人工撰写的文本内容对比分析也较好地证明了面向特地领域的文本生成方法具有较好的应用前景。
- 吴焕萍吕终亮张华平罗兵高健李笑侃何国豪王永超
- 关键词:自然语言处理文本特征提取
- 一种基于开源时空数据的时空目标描述文字生成方法
- 本发明涉及一种基于开源时空数据的时空目标描述文字生成方法,属于时空数据分析与挖掘技术领域。本方法通过分析时空目标数据的特点,经过数据清洗、行为描述短语生成、位置描述短语生成和目标描述生成,提取时空目标活动轨迹的语义信息,...
- 刘维康张华平商建云
- 一种基于写作风格的生成文本来源检测方法
- 本发明涉及一种基于写作风格的生成文本来源检测方法,属于人工智能与文本检测技术领域,该方法包括:S1,生成文本内容的识别与编码;S2,特征提取;S3,特征输入与融合;S4,损失函数计算与优化;S5,训练模型;S6,根据训练...
- 闫嘉文张华平商建云
- 一种基于微博数据的特定群体发现及扩充方法
- 本发明涉及一种基于微博数据的特定群体发现及扩充方法,属于社交网络分析及数据挖掘领域。本发明具体步骤为,采集相关群体信息;进行信息的整合与映射;针对文本数据进行特征提取;计算用户相似度;类别群体自检测;特定群体属性提取,判...
- 吴松泽张华平徐程程王洋王琦李高超付戈
- 文献传递
- 领域知识图谱小样本构建与应用被引量:6
- 2020年
- 知识图谱是人工智能类脑计算的关键基础设施,是一种知识存储与管理的形式。通用知识图谱已经取得了较好的进展,而特定专业的领域知识图谱构建则面对着可用语料少、领域专家稀缺以及样本标注困难等冷启动问题。本文重点描述了北京理工大学计算机学院团队在小样本基础上构建领域知识图谱的两种解决方案:KGB知识图谱人机引擎,以及小样本深度学习的知识抽取方法。本文还展示了其在情报分析方面的应用。
- 张华平吴林芳张芯铭商建云商建云
- 关键词:知识图谱国家自然科学基金情报分析人工智能
- 基于迭代算法的新词识别被引量:7
- 2014年
- 新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。
- 赵小宝张华平
- 关键词:对偶原理新词识别迭代算法信息熵
- 基于层叠隐马模型的汉语词法分析被引量:289
- 2004年
- 提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。
- 刘群张华平俞鸿魁程学旗
- 关键词:汉语词法分析分词词性标注未登录词识别ICTCLAS
- 基于角色标注的中国人名自动识别研究
- 中国人名自动识别是中文未登录词识别的重点和难点,目前的解决方案自身存在一些本质的缺陷,实际效果还难以满足需求.本文提出了一种基于角色标注的中国人名自动识别方法.即:根据在人名识别中的作用,采取Viterbi算法对切词结果...
- 张华平刘群
- 关键词:未登录词识别角色标注VITERBI算法
- 文献传递