《一、前言》

一、前言

《“十三五”国家战略性新兴产业发展规划》提出,要将战略性新兴产业摆在经济社会发展更加突出的位置,大力构建现代产业新体系,推动经济社会持续健康发展。把握产业发展规律、研判产业发展方向,对于推动战略性新兴产业健康发展具有重要意义 [1]。新兴技术是指处于技术发展前期阶段、经济效益潜在价值突出的技术,与战略性新兴产业有着密切关联。新兴技术具有多种产生方式,技术融合作为重要途径获得广泛关注 [2,3]。战略性新兴产业中,存在着由技术融合而形成的新兴技术,如生物质能产业的核心技术即源于生物和能源两个不同领域的技术融合。

技术融合的前提之一是知识融合 [4,5],表现为两个或多个不同学科领域之间相互交流而产生知识外溢的演化过程。随着知识流动程度的不断加深,知识外溢会带来新的研究模式、不同于原有科学领域的新知识,最终带来技术融合 [6~8]。有学者从技术路径角度研究技术融合 [9~11],用来解释技术动态变化和创新进化的过程 [12]。不同路径间的知识交叉渗透形成新范式,从而带来技术创新,这是新兴技术范式的起源,有利于催生新兴产业。一般认为,从知识融合路径的角度分析新兴技术发展,是一种捕捉新兴产业早期动向、理解产业发展过程的有效方法。这类研究方法也可在战略性新兴产业发展方面发挥积极作用。

技术融合和知识融合的研究方法主要分为定性方法和定量方法,目前以后者为主流。定量方法以论文、专利、新闻等为基础数据开展研究 [13~15]。在以科技文献的引用信息为主要分析数据方面,苗红等 [16] 基于专利引用信息和国际专利分类号(IPC)构建知识流动网络,完成技术融合趋势分析;No 等 [17] 提出了基于专利引用网络的技术融合程度指标。在对文本数据进行分析方面,邱均平等 [18] 以论文关键词为主要数据,使用词频分析和共现分析方法研究技术融合的发展趋势;Kim等 [19] 使用新闻数据中的不同领域企业的共现信息来判断产业融合的程度。在运用科技文献中的引用信息和文本信息方面,Kim 等 [20] 使用引文分析法和潜在语义分析法,完成了专利引用、标题、摘要和权利声明的分析研究。

知识融合过程体现了跨学科知识的流动,论文作为科学知识的重要载体,因其蕴含着丰富的文本信息和引用信息而成为研究知识融合的数据源。技术融合和知识融合的现有研究中,较多只是单独涉及科技文献的文本信息或引用网络;少量研究同时利用两种信息,但仅主要体现在流程层面,未能细化深入到算法层面,由此导致分析结果可能存在一定的偏差性。针对于此,本文同时采用引用网络和文本信息来开展知识融合路径分析研究,使用图神经网络(GNN) 模型 [21~23] 同时将论文的引用网络、标题和摘要信息编码成向量用于聚类处理,力求使研究结果更为全面合理。

分析技术融合过程,有助于理解战略性新兴产业的产生过程、发展规律和发展方向。本文针对我国战略性新兴产业中的高端装备制造、新一代信息技术、新医药、新能源 4 个技术领域进行多案例研究,研判相关行业的融合发展趋势,以期为我国产业政策研究提供理论支持。

《二、研究方法》

二、研究方法

文中综合应用引用网络和文本信息来构建知识融合路径分析方法的研究框架(见图 1),包括引用网络构建、论文聚类、融合路径识别 3 个主要步骤,涉及引用网络可视化、图神经网络模型、K-means聚类算法、相似度计算、主题模型等方法。对于按照时间累积的论文数据,采用上述研究框架开展聚类和关联,进而识别出知识融合的路径。

《图 1》

图 1 基于引用网络和文本信息的知识融合路径分析框架

《(一)引用网络构建与可视化》

(一)引用网络构建与可视化

论文数据来自美国科睿唯安公司 Web of Science数据库中的核心合集。根据选定领域的专业知识和分析需求,确定检索式以获取检索论文,提取检索论文的标题、摘要、发表时间、参考文献等信息,作为后续分析的输入数据。对于参考文献数据,使用 Citation-Network Data Analyzer(CDA)软件 [9]开展引用网络构建和可视化处理。

《(二)基于图神经网络的论文聚类》

(二)基于图神经网络的论文聚类

1. 图自动编码器

图是由节点和边组成的数据结构,其中节点往往含有特征。对于论文引用网络,节点代表论文,边代表引用关系,节点特征包括论文文本、发表时间、刊载期刊等。为便于分析计算,通过图嵌入方式将图的节点表示为低维稠密向量。传统的图嵌入算法由于尽可能保留图的结构信息而忽略了节点本身的信息 [24]。作为深度学习模型,GNN 能够同时对图的结构信息和节点信息进行计算,因而在图嵌入算法应用方面具有优势 [25]

文中采用基于 GNN 的图自动编码器(GAE) [26]来获取图嵌入的节点向量。以积累形式按年份切分获得数据序列,如按 2015 年进行切分,即提取出2015 年及之前的论文作为一组数据。针对每组数据的引用网络和文本信息,分别构造邻接矩阵和特征矩阵,以其作为 GAE 输入获取节点向量(即论文向量)。因此,论文向量同时包含了引用网络的结构信息和节点信息。

2. K-means 聚类

作为经典的无监督聚类算法,K-means 聚类可将给定的样本集划分为 K 个簇团,K 为可指定的参数 [27]。以论文向量为输入,文中应用 K-means 算法对论文进行聚类处理,得到的簇团即表征演化路径上的研究领域。计算出每个簇团中各科学领域论文所占比例,各领域论文占比相对均匀的簇团即为融合簇团。

《(三)融合路径识别》

(三)融合路径识别

1. 簇团关联

对论文数据按年份切片、进行聚类后,可得到每年的 K 个簇团,将之作为技术路径上的节点。计算得到的簇团中论文向量的均值即为簇团向量,可以综合反映所包含的论文文本信息和引用信息。在相邻的时间节点上,簇团转换构成了融合演化路径,构造按时间积累的引用网络是捕捉簇团转换的关键 [9,28]。簇团向量的相似度用于表征簇团间的转换关系,将相邻年份上相似度最高的簇团相连,即可形成知识融合路径。文中采用欧氏距离来衡量簇团间的相似度,距离越小表明相似度越高。

2. 簇团主题词

为确定簇团所表征的研究主题,文中采用潜在狄利克雷分布(LDA)主题模型 [29] 来提取主题词。按照论文所属的领域,将簇团包含的论文分成 4 个部分,而各部分的主题词共同构成了整个簇团的主题词。

《三、研究过程》

三、研究过程

文中针对高端装备制造、新一代信息技术、新医药、新能源 4 个产业,围绕作为产业核心技术的数控设备、信息技术、生物医药、太阳能光伏进行具体研究,以定量方法的形式来研判 4 种技术的融合发展路径和程度。

《(一)数据收集》

(一)数据收集

选择 Web of Science 核心合集数据库,依据 4 个领域涵盖范围,兼顾战略性新兴产业发展的侧重点,确定检索关键词,制定的检索式及数量如表 1 所示。检索的时间范围为 1997—2019 年,检索截止时间为 2019 年 11 月 5 日。

《表 1 》

表 1 研究领域的论文检索式

注:AND 表示“与”的关系,OR 表示“或”的关系。

1997—2019 年,数控设备、信息技术、生物医药、太阳能光伏 4 个领域的论文发表趋势(见图 2)为:数控设备领域的论文发表量保持稳定增长;信息技术领域在论文发表量和增长率上都远高于其他领域,且增长率仍逐步提高;生物医药领域的论文发表增长率在 2009 年之后有明显提升;太阳能光伏领域的论文发表量在 2008 年以前较少,但在2010 年后迅速增加。

《图 2》

图 2 研究领域的论文发表数量趋势

《(二)参考文献引用趋势》

(二)参考文献引用趋势

利用 CDA 软件对根据参考文献信息构建的引用网络进行可视化处理(见图 3)。4 个领域都产生了一定规模的子网络,具有一定程度的互相引用,体现了领域间存在着较为频繁的跨领域知识流动。

《图 3》

图 3 参考文献引用网络可视化结果

注:黄色代表数控设备领域内的引用;蓝色代表信息技术领域内的引用;绿色代表生物医药领域内的引用;红色代表太阳能光伏领域内的引用;白色代表跨领域的引用。

为进一步分析引用信息,文中统计了跨领域参考文献的引用情况(见图 4)。“数控设备 < 信息技术” “信息技术 < 数控设备”是跨领域引用数量最多的两种形式,且明显多于其他形式,表明这两个领域间的知识流动频繁。“太阳能光伏 < 数控设备”“太阳能光伏 < 生物医药” “信息技术 < 太阳能光伏” “太阳能光伏 < 信息技术”这 4 种形式的引用较多,且都与太阳能光伏领域有关,表明在太阳能光伏领域的跨领域知识流动复杂、形式多样。“数控机床 < 生物医药”“生物医药 < 数控机床”两种形式的引用最少,表明两个领域之间几乎没有知识流动。

《图 4》

图 4 跨领域参考文献引用趋势

注:“数控设备 < 信息技术”表示数控设备领域的论文引用信息技术领域的论文,其中“<”表示领域的流向;以此类推。

《(三)论文聚类》

(三)论文聚类

利用图自动编码器聚合引用网络的结构信息和文本信息,将网络中的每篇论文表示为低维的稠密向量,由 K-means 算法对这些向量进行聚类处理。

1. 图自动编码器训练

将每年的引用网络构造成邻接矩阵和特征矩阵,用于图自动编码器的输入。采用以下训练策略和参数设置 [26]:迭代次数为 200,学习率为 0.01,隐藏层维数为 32,输出向量维数为 16 ;将 5% 的引用关系作为训练集,将 10% 的引用关系作为测试集。训练得到的图自动编码器可将引用网络嵌入到低维空间,论文(节点)表示为 16 维向量,隐含了引用信息和文本信息。使用训练得到的模型对每一年的引用网络进行嵌入,据此获得多组论文向量。

2. 聚类

分别将得到的每一组论文向量输入 K-means 算法进行聚类。通过参数试验发现,类别数> 25 时可产生多个论文数量占比< 1% 的簇团,故分析过程采用的类别数均为 25。

《(四)知识融合路径识别与分析》

(四)知识融合路径识别与分析

在聚类结果中,各领域论文占比较为均匀(至少有两个领域的论文占比> 15%)的簇团定义为融合簇团,据此将 2019 年的簇团 4、簇团 10 和簇团20 确定为融合簇团。由此获得了与融合簇团对应的知识融合路径(见图 5)、融合路径上各簇团的论文占比变化情况(见图 6),可对知识融合路径进行直观识别和分析。随后使用 LDA 算法提取每个簇团的主题词,以确定融合簇团的研究主题和对应路径上的主题演化情况。其中,每个簇团的主题词又细分为多个子领域,每个子领域内的主题词排序取决于主题词的分布概率:主题词位置越靠前,则概率越大,重要性越强。文中展示了 5 条代表性融合路径的主题词(2016 年和 2019 年)(见表 2)。

《图 5》

图 5 知识融合路径

注:节点为该年聚类所得簇团,编号与表 2 中的结果一一对应。

《图 6 》

图 6 融合路径上各簇团的论文占比变化情况

《表 2》

表 2 簇团主题词

1. 路径 1、路径 2 和路径 3 的演化情况

这 3 条路径中的论文自 2007 年开始发表,逐渐演化合并后在 2019 年形成了簇团 10(见图 5)。①结合图 6(a)可见,2006—2008 年,路径 1 中信息技术子领域的论文主题相对独立,尚未出现融合现象;从 2009 年起,数控设备子领域与信息技术子领域的论文出现融合,且以数控设备和信息技术两个子领域的论文发表量为主。②在路径 2 与路径 3 合并之前,数控设备和信息技术两个子领域已呈现融合趋势,但仍以数控设备子领域的论文为主;在路径合并后,形成了数控设备和信息技术两个子领域论文占比均匀的融合簇团。③路径 3 自出现以来,数控设备和信息技术两个子领域的论文占比较为均匀。

从表 2 来看,3 条路径中信息技术子领域占主要地位的主题词均为 intelligence、data、network 和algorithm,数控设备子领域的主题词则为 cutting、control 和 error。然而,3 条路径的主题词仍有差异且各有侧重:路径 1 中的 spindle 重要性相对更高,路径 2 中较为重要的是 error,路径 3 则是 surface 和milling。根据主题词的含义,结合融合簇团所包含的论文文本内容可知,由数控设备和信息技术两个子领域融合而来的研究主题是“智能算法在运动控制、误差补偿、工艺规划等方面的应用”。

2. 路径 4 的演化情况

路径 4 自 2008 年出现,初期的论文数量占比较为均匀,但数据噪声的影响较明显;2013 年以来逐渐以生物医药和太阳能光伏两个子领域的论文为主。从表 2 来看,生物医药子领域出现的主题词为synthesis 和 materials,太阳能光伏子领域的主题词为 energy、power、cells 和 storage。因此,生物医药和太阳能光伏两个子领域知识融合而成的研究主题是“太阳能转换与电能储存中的合成材料”。

3. 路径 5 的演化情况

路径 5 中的论文最早出现于 1988 年,在较长时间内论文数量一直较少且增长缓慢;2015 年以来论文数量快速增长,以太阳能光伏子领域的论文为主;近两年数控设备和信息技术子领域的论文占比增大。从表 2 来看,数控设备子领域出现的主题词为 energy 和 consumption,信息技术子领域的主题词排位靠前的是 data、algorithm、neural 和network,太阳能光伏子领域的主题词排位靠前的是photovoltaic、energy 和 power。结合路径 5 主题词分析所包含的论文可以发现:数控设备与信息技术子领域融合形成的研究主题是“智能算法在优化机床能量效率中的应用”;太阳能光伏与信息技术子领域融合形成的研究主题是“智能算法在光伏发电功率预测中的应用”;太阳能光伏与数控设备子领域融合形成的研究主题集中在电流和电压的转换与控制、元器件研制等方面。

《四、结果分析》

四、结果分析

《(一)信息技术与数控设备的融合》

(一)信息技术与数控设备的融合

信息技术与数控设备子领域的融合程度较深,融合路径多,论文互引量多。二者融合范围也较广,涉及数控设备中的运动控制、误差补偿、工艺规划、能源效率优化等多个子方向。这一研究结果与当前高端装备制造业和新一代信息技术产业的整体发展趋势相符:以智能化技术核心的第四次工业革命与我国制造业转型升级的迫切需求形成了交汇 [30]。近 10 年来,我国出台了诸多科技创新政策,旨在促进国内制造业的转型升级,由此推动了智能制造产业的快速发展。因此,作为数控技术和信息技术深度融合发展的典型案例,智能制造的快速发展印证了文中研究结果的正确性,间接体现了采用研究方法的合理性。

《(二)信息技术与太阳能光伏的融合》

(二)信息技术与太阳能光伏的融合

信息技术与太阳能光伏的融合深度和广度相对弱化。以太阳能光伏子领域为主导的路径 5,近年来才涌现出了信息技术占比超过 15% 的簇团。两个子领域的融合自 2014 年开始出现,增长速率逐年加快。受益于新一代信息技术对分布式通信设备供电的需求,在全球工业向绿色化转型的时代背景下,这类技术融合具有很大的发展空间和应用潜力。

《(三)数控设备与太阳能光伏的融合》

(三)数控设备与太阳能光伏的融合

数控设备与太阳能光伏的融合情况类似于信息技术与太阳能光伏的融合。同样在以太阳能光伏领域为主导的路径 5 中,近年来才出现了数控设备论文占比超过 15% 的簇团。受全球工业绿色化的大力推动,这类技术领域具有很大的深度融合发展潜力。

《(四)生物医药与太阳能光伏的融合》

(四)生物医药与太阳能光伏的融合

生物医药与太阳能光伏的融合呈稳步发展态势。从两领域的融合路径(路径 4)来看,发表论文的数量增长幅度、领域占比范围的波动都很小,始终保持平稳发展状态。2019 年,生物医药与太阳能光伏的占比分别为 30% 和 52%,融合程度较为理想。可以认为,后续的领域融合发展趋势将维持现状,融合程度有望稳步深化。

《(五)数控设备与生物医药的融合》

(五)数控设备与生物医药的融合

数控设备与生物医药的融合程度相对较低。2019 年,数控设备和生物医药的论文互引数量仍未超过 30 次,逐年增长率也十分缓慢,依然无法识别两个子领域的稳定演化路径。这表明,在科学知识层面两个子领域尚未出现融合发展的迹象。但现实情况与之相悖:两个子领域存在广泛的行业交叉应用,如医药行业对数控设备的应用需求巨大,涉及自动化制药、消毒、贮藏等多个方面。可以认为,当技术领域知识基础相差较显著时,跨领域的市场应用并不一定能带来技术领域的融合发展。

《五、结语》

五、结语

针对高端装备制造、新一代信息技术、新医药、新能源 4 个战略性新兴产业,应用基于引用网络和文本信息的知识融合路径分析方法,结合图神经网络模型,完成了各领域发表论文的聚类研究,识别出了 5 条主要技术融合路径。研究表明,信息技术与数控设备、生物医药与太阳能光伏表现为深度融合,数控设备与太阳能光伏、信息技术与太阳能光伏表现为一定程度的融合,而数控设备与生物医药尚未融合。

我国战略性新兴产业的科学发展,离不开产业政策研究的进一步深化、政策内容的有效制定和适时优化。为此,立足文中理论研究成果,针对性提出相关产业的发展建议如下。

1. 鼓励数控设备的广泛使用和网络化转型

在大力推动制造业智能化转型升级、面向中长期推进制造业高质量发展的背景下,文中研究印证了我国将智能制造作为制造强国建设主攻方向的合理性和必要性。行业主管部门应继续鼓励并扶持制造业企业结合产业特点来广泛使用数控设备,尽快完成向数字化制造范式的转型;鼓励相关企业将数控设备与新一代信息技术相结合,加快从数字化范式向网络化范式的转型。

2. 加强新能源技术的应用

太阳能光伏与信息技术、数控设备两个子领域的融合程度较高,但融合速度偏慢。在我国大力推行工业节能减排、加强环境保护的背景下,加快太阳能光伏等新能源技术与相关应用技术领域的的融合发展具有重大意义。建议出台相应优惠政策,鼓励太阳能光伏等新能源技术在制造业和通信行业的应用。

3. 提高生物医药领域的数字装备水平

数控设备与生物医药领域的技术融合相对匮乏,而现实情况是,我国生物医药行业发展处于稳步增长阶段,药品研发与生产环节较多使用了数控设备,使得生产效率提高、无菌生产环境易于实现。为此,促进生物医药和数控设备领域的技术融合有其现实必要性。建议行业主管机构瞄准实用目标,从供给和需求两个方面着手,牵引数控设备研发企业、生物医药研发企业开展紧密合作,推动研究融合、技术融合;出台相应政策措施予以鼓励推动,通过生物医药专用数字装备的能力创新提升,加速我国生物医药行业的发展进程。