随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。
【目的/意义】探究美国情报学研究发展动向的特征与趋势,可以为我国科研人员的选题以及情报学学科发展建设提供有益参考。【方法/过程】选取Web of Science数据库收录中JCR报告影响因子位居前列的9种美国情报学期刊近15年所刊载文献作为研究对象,借助词频变化率模型以及共现网络分析法、多维尺度分析法分别从研究热点、研究主题、研究范式等三个方面对美国情报学研究发展动向进行探究与分析。【结果/结论】研究发现美国情报学研究内容具有较强的延续性,且多学科、跨领域的结构特征明显,特别是与医学结合研究较为频繁。研究重点由信息化向知识化转移的趋势都较为显著,更加注重社会价值,融入了以"满足用户需求"为服务宗旨的理念。但是在情报学理论性框架方面的研究成果相对偏少,且跨学科研究程度地增强带来了研究主体泛化程度地加剧。