2024年11月7日
星期四
|
欢迎来到营口市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
杨阳
作品数:
2
被引量:7
H指数:1
供职机构:
上海应用技术学院计算机科学与信息工程学院
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
魏晓
上海应用技术学院计算机科学与信...
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
2篇
中文期刊文章
领域
2篇
自动化与计算...
主题
1篇
登录
1篇
行号
1篇
引擎
1篇
正文
1篇
正文提取
1篇
搜索
1篇
搜索引擎
1篇
索引
1篇
中文
1篇
中文分词
1篇
最优阈值
1篇
阈值
1篇
网络新词
1篇
未登录词
1篇
文本
1篇
新词
1篇
基于统计
1篇
分词
机构
2篇
上海应用技术...
作者
2篇
魏晓
2篇
杨阳
传媒
2篇
计算机应用与...
年份
2篇
2015
共
2
条 记 录,以下是 1-2
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于Web知识的中文分词结果优化
被引量:6
2015年
随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。
杨阳
魏晓
秦成磊
关键词:
中文分词
未登录词
网络新词
搜索引擎
一种基于统计的复杂页面正文提取方法
被引量:1
2015年
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值,划定文本行号区间,最后利用公共子序列进行优化并完成正文提取。实验结果表明,该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。
秦成磊
魏晓
杨阳
关键词:
正文提取
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张