王潇斌
- 作品数:8 被引量:9H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于随机抽样过程的P2P集群规模估算方法
- 2014年
- 对P2P系统的主动测量,可了解其现状和变化趋势,为系统建模和仿真提供可靠的测量依据.现有的赠券收集者模型,过度依赖于服务器返回的先验知识,导致测量结果不能反映集群的真实规模.基于随机抽样过程,本文提出了一种P2P集群规模主动估算方法.根据测量过程中不同时刻获取的节点总数x及不重复节点数u,得到集群规模的估计值.根据理论分析的结果,分别给出了3种不同的实验停止条件.实验结果表明,对于小于105的集群,本文的估计方法误差不超过5%.
- 王潇斌李程石碧杨哲
- 面向框架语义分析的目标词自动识别方法被引量:2
- 2015年
- 提出了一种基于监督学习的目标词自动识别方法,分析并检验了多种区分目标词、框架元素和非实义词的分类特征,并在此基础上,联合使用监督学习与规则匹配方法,形成了兼顾扩展性和精确性的目标词识别系统。在Frame Net语料集的实验结果显示,融合方法的目标词识别获得了3.86%的性能提升。
- 陈亚东洪宇杨雪蓉王潇斌姚建民朱巧明
- 关键词:框架语义
- 基于CCP模型的BitTorrent集群测量研究
- 2012年
- 对P2P集群的测量与分析,有助于理解其现状及演变规律,从而对其进行优化和管理.根据赠券收集模型的一般原理并进行了优化,设计实现了一种主动测量方法及平台,可用较少的主机对全球BitTorrent集群开展持续的主动测量.该方法能在短时间内,获取每个集群中超过90%的在线节点,同时对网络本身的影响较小.在近9个月的实验中,分别测量了从Torrentz获取的3万多个BT集群.结果表明BT集群中的节点分布具有明显的地域性,而且国内外用户在客户端和端口使用上具有明显的偏好.
- 林凯王潇斌石碧杨哲
- 关键词:用户偏好
- 基于跨场景推理的事件关系检测方法被引量:1
- 2014年
- 事件关系检测是一项面向事件之间逻辑关系的自然语言处理技术。事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻辑关系的深层检测。该文首次建立一套事件关系检测的任务和研究体系,包括任务定义、关系体系划分、语料采集与标注、评价方法等。同时,该文提出了一种跨场景推理的事件关系检测方法,该方法认为,具有相同事件场景的"事件对",往往具有相同的事件关系类型。该文提出的基于跨场景推理的事件关系检测方法在针对四大类事件关系类型的检测精确率为54.21%。
- 杨雪蓉洪宇陈亚东王潇斌姚建民朱巧明
- 关键词:框架语义
- 利用框架语义知识优化事件抽取被引量:4
- 2017年
- 事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。
- 陈亚东洪宇王潇斌杨雪蓉姚建民朱巧明
- 关键词:事件抽取信息抽取框架语义
- 基于共指消解的实体搜索模型研究
- 2018年
- 实体属性挖掘(slot filling,SF)旨在从大规模文档集中挖掘给定实体(称作查询)的特定属性信息。实体搜索是SF的重要组成部分,负责检索包含给定查询的文档(称为相关文档),供后续模块从中抽取属性信息。目前,SF领域关于实体搜索的研究较少,使用的基于布尔逻辑的检索模型忽略了实体查询的特点,仅使用查询的词形信息,受限于查询歧义性,检索结果准确率较低。针对这一问题,该文提出一种基于跨文档实体共指消解(cross document coreference resolution,CDCR)的实体搜索模型。该方法通过对召回率较高但准确率较低的候选结果进行CDCR,过滤不包含与给定实体共指实体的文档,提高检索结果的准确率。为了降低过滤造成的召回率损失,该文使用伪相关反馈方法扩充查询实体的描述信息。实验结果显示,相比于基准系统,该方法能有效提升检索结果,准确率和F1分别提升5.63%、2.56%。
- 熊玲徐增壮王潇斌洪宇朱巧明
- 关键词:共指消解
- 融合多模型与高置信度词典的事件线索检测被引量:2
- 2017年
- 提出一种融合多模型和高置信度词典的事件线索识别方法,将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务,进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,提高事件真伪性识别的性能。实验结果显示,针对触发词识别和事件真伪性识别任务,与仅使用最大熵模型相比,所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%,提高事件真伪性识别的性能1.69%。
- 陈亚东洪宇王潇斌杨雪蓉姚建民朱巧明
- 关键词:最大熵模型
- 基于CCP模型的BitTorrent集群测量研究
- 对P2P集群的测量与分析,有助于理解其现状及演变规律,从而对其进行优化和管理.根据赠券收集模型的一般原理并进行了优化,设计实现了一种主动测量方法及平台,可用较少的主机对全球BitTorrent集群开展持续的主动测量.该方...
- 林凯王潇斌石碧杨哲
- 关键词:地域性
- 文献传递