文本分类指的是在制定文本的类别体系下,让计算机学会通过某种分类算法将待分类的内容完成分类的过程.与文本分类有关的算法已经被应用到了网页分类、数字图书馆、新闻推荐等领域.本文针对短文本分类任务的特点,提出了基于多神经网络混合的短文本分类模型(Hybrid Short Text Classical Model Base on Multi-neural Networks).通过对短文本内容的关键词提取进行重构文本特征,并作为多神经网络模型的输入进行类别向量的融合,从而兼顾了FastText模型和TextCNN模型的特点.实验结果表明,相对于目前流行的文本分类算法而言,多神经网络混合的短本文分类模型在精确率、召回率和F1分数等多项指标上展现出了更加优越的算法性能.
文献计量学是一种把握学科发展态势的定量分析方法。传统基于文献计量学的研究步骤需手动操作且流程繁琐,针对这一问题,设计并实现了一种基于scrapy-redis分布式爬虫的学科发展态势分析系统。该系统包含了1.负责爬取并解析web of science文献数据的数据预处理层。解决了由于网速不稳定造成的爬虫丢失网页问题,保障数据完整性。设计了一种动态计算参考文献所属学科分布情况的算法2.基于Django搭建的结果展示层,通过web服务向用户展示学科态势分析结果。用户只需输入初始待爬取页面的URL即可通过web服务获得学科态势分析结果。该系统为文献计量学提供了一种更便捷、更快速、扩展性高的分析手段。
[目的]开源代码是计算机领域内研究成果可验证和可复现的重要依据,本文旨在探究计算机领域论文是否开源代码以及不同开源代码类型对论文被引量的影响。[方法]以Papers with Code上2043篇计算机领域期刊论文为样本,采用基于稳健标准误差的多元回归模型进行分析。[结果]研究表明,论文开源代码与被引量呈显著正相关,不同开源代码类型的论文被引优势有别。[结论]计算机领域论文开源代码不仅提供了研究成果复现的手段,还有助于增加论文被引次数,且在Github代码仓库的README文件中提及原文信息利于促进论文被引。