章成志
- 作品数:216 被引量:1,734H指数:24
- 供职机构:南京理工大学经济管理学院信息管理系更多>>
- 发文基金:国家社会科学基金教育部人文社会科学研究基金“十一五”国家科技支撑计划更多>>
- 相关领域:文化科学自动化与计算机技术经济管理语言文字更多>>
- 基于双语URL匹配模式可信度的平行网页识别研究被引量:3
- 2018年
- 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
- 章成志马舒天揭春雨揭春雨
- 关键词:平行语料库
- 跨学科知识发现及其生长路径挖掘研究——基于国家自然科学基金的跨学科申请视角
- 2024年
- [目的/意义]在国家自然科学基金项目申请中,同一个学者在不同时间使用不同学科基金代码,这在一定程度上促进了跨学科知识的融合与生长。为此,文章基于国家自然科学基金跨学科申请视角,挖掘跨学科知识及其融合生长路径。[方法/过程]首先,结合自然科学基金学科申请代码的层级结构,改进并优化了跨学科性测度指标,识别最具有跨学科性的跨学科知识。随后,构建跨学科知识与一级学科的二类型异质网络,并基于RankClus实现了跨学科知识社区发现与生长路径挖掘。[结果/结论]研究发现,存在显著的12个跨学科知识主题与6个明显的知识生长路径,其知识生长路径分别是生命科学部-医学科学部(C-H)、化学科学部-工程与材料科学部(B-E)、生命科学部—地理科学部(C-D)、数理科学部—信息科学部—管理科学部(A-FG)、数理科学部—地理科学部—工程与材料科学部(A-D-E)、化学科学部—管理科学部(B-G)。
- 吴小兰章成志
- 关键词:跨学科知识国家自然科学基金
- 学术博客用户的博文分类行为研究--以科学网博客为例
- 学术型博客不断发展促使网络学术资源不断增长。为了有效地对网络学术资源进行分类,很多学术型博客网站引入博文分类机制。对用户的博文分类行为进行研究,有助于理解学术博客中用户进行分类的规律,从而促进博文分类系统的优化。目前国内...
- 张颖怡章成志陈果
- 关键词:用户分类学术博客
- 基于机器学习的文本聚类描述算法研究
- 标注文档集合聚类后生成的类簇,是主题聚类应用中一项重要并富有挑战性的任务。针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法。实验结果表明基于支持向...
- 章成志
- 关键词:文本聚类支持向量机
- 文献传递
- 基于多语境的相关词自动提取
- 通常词语在一定的语境下出现会更加确切表达其意思.不同的语境从不同侧面反映了词汇关系.本文利用语料库、释义词典、用户搜索日志作为识别相关词的语境,设计并实现了相关词自动提取系统.分析实验结果,我们发现,虽然面向相同的基本词...
- 章成志苏兰芳
- 关键词:相关词语料库用户日志
- 文献传递
- 国外新兴研究话题发现研究综述被引量:35
- 2019年
- 新兴研究话题发现一直以来都是学者们广泛关注的研究问题。对于新兴研究话题动向的把握,不仅可从宏观层面为管理部门制定科技政策提供决策支持、以提高科研资金投入的效益、加速科学进步和发展,还可为科研工作者投身富有前景的研究领域提供具体的研究方向建议。对国际核心期刊上关于新兴研究话题发现的研究现状进行梳理发现,目前学术界对新兴研究话题及其相关概念尚无清晰的界定;相应地,新兴研究话题的探测方法也存在诸多的不足;探测新兴研究话题中所依据的指标繁杂多样。综述现有研究,本文给出新兴研究话题的概念及其特征的界定,比较新兴研究话题及其相关概念的联系与区别,并指出在新兴研究话题发现中应注意的具体问题并提出四个方面的工作展望。
- 卢超侯海燕Ding Ying章成志
- 关键词:共被引分析
- 中文微博用户标签的调查分析——以新浪微博为例被引量:6
- 2012年
- 以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标签推荐服务提出改进建议。
- 黄红霞章成志
- 关键词:社会化标签标签推荐
- 社会化问答研究综述被引量:18
- 2018年
- 【目的】了解社会化问答的发展态势和研究内容。【文献范围】在Google Scholar和CNKI中分别以检索词"Social Q&A"和"社会化问答"进行文献检索,再结合主题筛选,精读并使用追溯法获得社会化问答研究的代表性文献共77篇。【方法】对社会化问答的发展历程和早期研究内容进行介绍,对社会化问答近期的主要研究内容进行归类总结。【结果】目前社会化问答的相关研究主要从问题、答案、用户和平台4个方面展开。【局限】仅将发展历程和研究主题作为探讨核心,未对每个研究主题进行更加细致的探讨。【结论】基于现有的研究内容反映出的研究问题,分别从问题、答案、用户、平台、领域以及应用层面,提出对社会化问答未来研究的建议和展望。
- 李蕾何大庆章成志
- 关键词:社会化媒体
- 基于学术论文全文内容的算法使用行为及其影响力研究被引量:22
- 2018年
- 数据挖掘算法已被广泛应用于科学研究与实践中。考察数据挖掘算法在学术论文中的使用情况、进而评估其影响力,能辅助研究者全面了解其所在领域的常用算法,并根据研究任务类型选择相应算法。本文利用学术论文全文内容,对算法的使用行为进行分析,从而考察算法的影响力。具体来说,本文以自然语言处理领域为例,收集整理全国计算语言学会议(CCL)1993—2016年收录的学术论文全文数据,从使用频次、使用位置、使用年代以及使用动机等四个方面全面考察十大经典数据挖掘算法在该领域的使用情况,并在此基础上对算法的影响力进行评估。实验结果显示,十大算法的使用行为存在明显差异,且SVM算法影响力最高,CART与Apriori算法影响力较低。本文研究可为基于数据驱动的相关研究者,尤其是为初学者在算法选择时提供参考。
- 章成志丁睿祎王玉琢
- 中国人文社科领域研究方法应用的实证研究——基于大规模博士学位论文的调查
- 2024年
- [目的/意义]研究方法的发展能在一定程度上反映学科的发展。目前鲜有针对中国整体人文社科领域研究方法使用的调研。对该领域不同学科研究方法的使用情况进行比较,可以揭示不同学科研究方法应用的特点,并为相关学者进行课题研究提供研究方法的使用建议。[方法/过程]与一般期刊论文相比,中国人文社科领域的博士学位论文中的研究方法通常会在特定的小节被明确阐述,便于提取分析。文章基于人文社科领域21个一级学科共63741篇博士学位论文,构建研究方法分类框架,抽取论文使用的研究方法,并从研究方法的使用频次、时间演化以及学科相关度角度进行深入分析。[结果/结论]中国人文社科领域研究方法命名存在不规范的问题,但方法意识正逐渐增强;比较分析法、历史分析法、文献研究法等经典的数据分析方法仍占主导地位;多数热门研究方法在人文社科领域不同学科之中存在一定的普适性。
- 章成志储新龙
- 关键词:研究方法博士学位论文