公共文化服务平台

2024年11月7日星期四

|

欢迎来到营口市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

杨阳: 作品数：2 被引量：7H指数：1; 供职机构：上海应用技术学院计算机科学与信息工程学院更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

魏晓上海应用技术学院计算机科学与信...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇中文期刊文章

领域

2篇自动化与计算...

主题

1篇登录
1篇行号
1篇引擎
1篇正文
1篇正文提取
1篇搜索
1篇搜索引擎
1篇索引
1篇中文
1篇中文分词
1篇最优阈值
1篇阈值
1篇网络新词
1篇未登录词
1篇文本
1篇新词
1篇基于统计
1篇分词

机构

2篇上海应用技术...

作者

2篇魏晓
2篇杨阳

传媒

2篇计算机应用与...

年份

2篇2015

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

基于Web知识的中文分词结果优化被引量：6: 2015年; 随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。; 杨阳魏晓秦成磊; 关键词：中文分词未登录词网络新词搜索引擎

一种基于统计的复杂页面正文提取方法被引量：1: 2015年; 随着信息技术的发展，web页面复杂多样的特点愈来愈明显，传统页面正文提取方法的效率和精确度较低。针对这种情况，提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息，对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值，划定文本行号区间，最后利用公共子序列进行优化并完成正文提取。实验结果表明，该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。; 秦成磊魏晓杨阳; 关键词：正文提取

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@营口市图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张