2024年12月,市科技信息研究院陆敏、汤洌为主完成的研究成果,以“An ensemble approach for research article classification: a case study in artificial intelligence”为题发表在SCI期刊《PeerJ Computer Science》。
该研究提出新型AI文献分类方法,通过集成多模态数据与机器学习技术,从Web of Science数据库中筛选出249万篇人工智能研究论文,其准确率和召回率相比传统方法有明显提升。
面对AI领域跨学科性强、技术边界模糊的问题,传统关键词检索或学科分类方法存在显著漏检。市科技信息研究院院团队提出四阶段集成模型:通过正则表达式匹配标题、摘要中的AI高频术语;基于学科标签构建决策树;利用科学文本预训练模型SciBERT解析语义;最终通过支持向量机整合结果。经4000篇人工标注论文验证,其F1分数达0.943,较传统搜索策略提升15%。
筛选结果显示,近10年来AI相关论文年均增长21%。中国以32.8万篇总量居于第一,是美国的2.96倍,但篇均引用次数尚低于发达国家水平。学科分布上,仅15.8%的AI论文归属“人工智能”学科,更多研究渗透至电子工程、信息系统与通信领域。在研究领域方面,机器学习、深度学习占据核心地位,计算机视觉、自然语言处理和机器人学科也在近年有较快发展。
该研究通过集成学习方法,有效突破传统文献检索的学科边界限制,为追踪新兴研究领域的多维度扩散提供了方法论支撑。
来源 | 市科技信息研究院