中国网/中国发展门户网讯 数智驱动是当今世界科技呈现的新态势和新特征。以ChatGPT模型为代表的GPT技术的出现,对学术、教育及产业界均带来了变革。基础科研领域的发展是大国科技竞争力的重要保证,直接决定了社会各方面进步的步伐,重要性不言而喻。目前,在基础科学研究领域,基于GPT技术的研究已产生较多突破性成果,大语言模型技术在辅助科研人员进行研发工作或理解基础科学问题的同时,也在改变甚至颠覆基础科研生态。因此,对于我国而言,合理地促进GPT技术在科研中应用,不仅意味着科研效率的提升,更意味着科研“弯道超车”机遇的到来。
然而,也有另一部分学者在表达担忧和焦虑,认为GPT技术虽然可以在多个基础研究领域极大地提升科研效率,但它需要被合理使用,而不能被滥用;更有学者认为未来GPT技术甚至可以接管整个学术研究领域。那么,GPT技术在基础科学研究领域的应用现状如何?影响几何?在研究中使用的边界和隐患在哪里?针对这些问题,目前学界尚未给出一个系统性包養網的分析框架和相关讨论。为此,本研究立足以上问题,构建系统分析框架,讨论GPT技术对于基础科学研究的潜在影响和可能的应对方法,助力科学研究生态的健康发展。
GPT技术变革及在科研中的应用
ChatGPT在自然语言处理方面表现出来的性能已然达到了一骑绝尘的地步,要想进一步理解ChatGPT具备如此优越性能的缘由,需要了解GPT家族模型的发展路径(图1)。
图1 GPT技术的发展历程
Figure 1 Development history of GPT technology
初代GPT模型采用无监督预训练与有监督微调相结合的研究范式,着重训练一个无监督预训练语言模型,然后根据具体的任务有监督地微调模型。GPT-2.0模型的研究范式同上,改进点为通过大幅提升训练数据量和模型规模在有监督任务中实现了更好的效果。GPT-3.0模型采用无监督预训练与提示工程相结合的研究范式,即训练过程中仅提供少量示例即可完成有监督任务。GPT-3.0模型共包含3个版本,分别对应着不同的参数量:1 750亿、130亿和76亿。GPT-3.5为GPT-3.0的升级版,是一系列以GPT-3.0为基础的改进模型(包括code-davinci-002模型等),通过评价模型的问答表现和奖惩措施进行优化更新而来。ChatGPT则是在GPT-3.5基础上引入了基于人类反馈的强化学习(RLHF)和近端策略优化算法(PPO)进行微调,利用偏好作为奖励信号来微调模型,由此生成的回复符合人类的偏好。最后,GPT-4.0是在GPT-3.5版本的基础上将文字到多模态的连通变成了现实。总而言之,GPT系列模型的成功标志着人工智能(AI)从以专用小模型训练为主的“手工作坊时代”迈入到以通用大模型预训练为主的“工业化时代”,成为AI发展的分水岭。
GPT技术革命对基础科学研究的影响
大语言模型的卓越性能为基础科学研究带来了广泛的应用前景,能够在众多科学研究场景中应用或研发了一系列领域大语言模型。文章将从应用牵引、原理驱动、创新主体迁移3个视角分析GPT技术变革对基础科研的影响(图2)。
应用牵引及其影响
包含GPT模型在内的大语言模型带来了一系列的技术革命,同时也在牵引着基础科学领域中科学难题的突破,成为加速科研进程,提高科研效率的助推器。
应用牵引的3个模式
按照由低到高的能力层次,可将GPT技术在基础科学研究中的应用分为3个模式(图3)。
(1)工程化应用。该模式主要是增加GPT模型的对外接口,将其作为通用的科研数字助手,协助科学研究的日常工作流程,提升学术效率。以中国科学院研发的成果为例,GPT衍生模型的工程化应用案例如表1所示。
(2)学科科研创新的助力。该模式主要基于领域数据库微调出GPT衍生模型(如基于蛋白质结构数据库打造的Protein GPT),提高模型在特定科学研究任务上的性能和适配性。目前,ChatGPT的表现类似于通才,在细分的专业性上和行业中比较顶级的专家还有很大的差距。将ChatGPT作为通用AI的技术基座,通过在本地数据库中进行微调,便可以提升模型在不同领域中的专业性,使其更适用于解决领域场景问题,成为科学假设空间的探索者,目前已有一些探索性研究工作(表2)。此外,AI推动基础科学研究的前提还在于AI技术理解不同学科基础知识,提升多元知识的表示和融合。这种情况下,首要的困难是专业领域科学家与AI专家的相互理解程度低,彼此互相促进的障碍仍然较高。
图2 GPT技术变革对基础科学研究影响的全景图
Figure 2 Panorama of impact of GPT technological change on fundamental scientific research
图3 GPT助力科学研究应用现状概念图
Figure 3 Conceptual map of application status of GPT assists scientific research
科研范式变革的促进。目前,“人机共生”的科研场景中,根据机器的智能程度由低到高将机器分为辅助做实验的“实验员”,辅助高维空间计算的“AI科研助理”,自主进行科研全流程操作、突破人类科学家认知瓶颈的“AI科学家”,这3种形式各有侧重,并行发展。GPT技术主要在后2种角色中发挥作用,即“科研范式变革促进”模式主要是希望突破“GPT类模型构建虚拟世界”的限制,通过加持实验类的物理科研设备,以“AI科学家”的身份自主提出科研假说、自主设计实验方案、自主验证假说合理性(图4)。
图4 人机科研场景中的3种科研范式概念图
Figure 4 Conceptual diagram of three paradigms in the human-machine scientific research scenes
表1 GPT衍生模型的工程化应用案例
Table 1 Engineering applications of GPT-derived models
目前,GPT技术与物理实验设备的连接主要有2种方式:打通自然语言和机器指令之间的壁垒,自动生成机器人操作指令。已有研究借助GPT-4模型根据自然语言的实验指令自动生成一种实验机器人操作指令(OT-2),指挥机器人自动进行生物学实验,极大节省了考虑机器操作细节编写指令的时间;打通科研假设和科学实验之间的壁垒,自主生成实验方案。例如,中国科学技术大学研发的GPT衍生模型Chem-GPT,通过借助GPT模型“学习”50万篇化学论文之后,自动给出其建议的化学实验方案,同时驱动机器化学家“小来”做实验,高效完成芬顿(Fenton)催化剂等化学品和新材料的研发问题。
应用模式的3个负影响
工程化应用模式中,不可避免地面临科研诚信问题。从文本语法、格式的角度来看,ChatGPT是一个好的“论文制造者”。然而,所有的GPT框架产品都有一个共同特点,即制作者无法掌握程序内部发生的变化,也就是我们常说的“黑盒”。由于模型参数过大,GPT大模型会不可控地产生大量的虚构信息。此外,从科研伦理的角度来看,原创性是一篇论文的根本要求,用ChatGPT进行论文写作,从形式上来说与抄袭无异。更让人担忧的是,随着大语言模型的发展,编辑、出版商将很难分辨出AI代写的文章。因此,如若对ChatGPT等AI技术进行误用和滥用,将对科研诚信产生不可控的冲击。
表2 GPT衍生模型的科学性应用
Table 2 Scientific applications of GPT-derived models
科研创新模式中,模型透明度的降低削弱了研究可信度。目前,从GPT-4发布的技术报告来看,美国人工智能研究公司OpenAI出于竞争与安全等方面的考虑,未公布模型规模等技术细节,且之后最前沿的研究也趋向于不再发布相关论文开源技术的细节。对研究者来说,模型技术细节缺乏透明度,不仅是与开放科学的趋势背道而驰,也会违背科学研究求证的科研态度。因此,如果继续使用GPT开源模型或官方提供的应用程序编程接口(API)学习领域数据,则会威胁到结果可复现性,从根本上削弱研究的可信度;同时,无法从根本上回答重大科学研究问题的机理机制,进而无法有根本性突破。
科研范式变革模式中,基于开源大数据训练的GPT技术会潜在地放大固有偏见。由于ChatGPT的训练数据来源于大量的互联网数据,其中不可避免地记录了人类社会潜在的歧视与价值对抗。当ChatGPT输出明显具有偏见的研究内容时,不仅影响研究者的判断,更可能因为大量文本的广泛传播应用,加深研究者们的认知偏见。此外,在马斯克联名几千位计算机科学家的请愿公开信中,罗列了8个AI危险推测和失败模式,包括人类衰弱、认知侵蚀、欺骗等。
原理驱动及影响
基于GPT模型的科学研究已取得较多突破性成果。例如ProGen模型与ESMFold模型等蛋白质语言模型在蛋白质结构预测任务中表现突出,成为GPT模型在科学研究发展史中一座座里程碑。分析以上发展现状背后的原理、特点及其未来的发展,对于科研人员厘清定位和科研边界具有十分重要的启发意义。
大量模型参数驱动实验计算问题的高维空间拟合
GPT类大模型核心还是Transformer的体系结构,之所以能在基础科学研究领域表现卓越,本质还是通过学习巨量的领域科学数据,借助大量模型参数对实验计算问题的高维空间进行了有效拟合。换言之,输出的仅是统计学上的可能性,缺乏强有力理论知识的支撑。
应用的主战场为数据计算密集型领域的高维复杂科学问题。分析上述案例可以发现,GPT技术在基础科学研究中应用的主战场为基础科学研究中的实验计算领域,即在分子生物学等数据积累丰富、结构化程度高、问题定义清晰的实验计算领域。这主要是因为GPT技术在基础科学研究中应用的本质是GPT技术的高维建模能力和科学第一性原理的结合。科学计算希望做的是从第一性原理及实验观测出发,将不同尺度现实世界发生的事情映射到计算模拟的世界中。然而,随着问题复杂度的提升,以往经典的计算模式面临“维度灾难”的问题。AI技术则助力于解决科学计算中的维度灾难问题,将不同尺度的物理模型有效连接起来,而物理模型的演绎能力又能产生更多数据,从而推动更好的AI解决方案。在此过程中,模型参数是衡量模型复杂度和能力的重要指标,也是基础科学研究高维数据计算得以解决的重要因素。参数越多,意味着模型能够处理更多的数据,学习更多的领域知识,更能帮助研究者探索高维数据的内在规律和关系,继而能够解决的科学研究问题的复杂度也越高。例如,在生物学领域,ProGen模型基于12亿的模型参数学习蛋白质中氨基酸排序的规律,帮助研究者快速从头构建全新的蛋白质。
模型适配性由数据表现形式决定。由于GPT模型的训练、应用都是自然语言序列数据,因此,在实验计算科学问题中,只有与自然语言相似的序列领域数据才可以用GPT模型进行编译,进而学习蕴含其中的高维复杂知识。典型的领域序列数据有:领域论文、专利数据是天然的自然语言数据。例如,Chem-GPT基于开源的GPT代码,“阅读”近50万的化学论文,可以基于学习到的论文知识自动回答研究者提出的化学问题,甚至可以给出某化合物合成的实验方案,并高效完成化合物的研发。此外,还有基于4 000亿字符训练的生成式专利语言模型——PatentGPT-J-6B,用于自动生成专利权利要求书。生物大分子,尤其是蛋白质,可以看成是用遗传密码撰写的语句,具有更为复杂的关联知识。以“生物版ChatGPT”的ProGen模型为例,通过学习氨基酸如何组合成2.8亿个现有蛋白质的“语法”,学习到了蛋白质中氨基酸排序的规律及其与蛋白结构和功能的关系,进而可从头开始生成跨多个家族和功能的人造全新蛋白质。
原理驱动视角下的GPT模型应用边界
(1)突破实验计算领域的研究边界。当模型参数超过临界值,GPT模型将突破实验计算领域中的研究问题边界,表现出一定的“涌现性”。AI大模型领域的“涌现性”,通俗性表述是在小规模模型中不存在,但在模型参数超过阈值的大规模模型中存在的能力。这些能力在模型训练时没有被特别指定,而是由模型的多层结构和参数之间的相互协同作用自发产生的。根据Chung等学者的研究,模型参数规模在大于62亿的情况下,可涌现出之前较小模型不具备的能力,模型能力会完成从量变到质变的飞跃,呈现出惊人的爆发式增长。此外,大模型的涌现能力还存在一些悬而未决的问题,如是什么控制了哪些能力会涌现?如何控制模型涌现理想的能力并确保不理想的能力永不涌现?也有研究对大模型的“涌现力”提出质疑,认为只是人为选择度量指标的结果,当评价指标换成更为连续、平滑的度量指标之后,涌现现象就不那么明显了,但目前绝大多数研究支持大模型涌现性的存在。总之,由于涌现现象的难以预测性和不确定性,需要谨慎地处理涌现结果,并进一步验证和分析其输出结果。
尚未到达理论推导的研究边界。虽然GPT类模型在实验计算科学问题上表现得非常出色,甚至能够通过图灵测试,但它尚不能自主进行理论推导的科学研究任务。在“AI笛卡尔”模型的研究中,认为ChatGPT的大型语言模型逻辑能力有限,尚不能从公理化的知识和实验数据中对自然现象模型进行原理性的推导。针对这个问题,主要从两个角度分析① 理论推导的核心能力是需要理解因果,而GPT模型表现出来的“智能”仅仅是源于数据拟合。AI科学家朱迪亚•珀尔认为理解来源于因果模型,而非源于数据拟合。ChatGPT仅仅依赖于大量文本数据进行预训练和微调,缺乏对真实世界的直接观察和经验,难以判断事件的因果关系。它表现出来的“智能”仅仅是来自人类语料库里已有的内容,当问题在语料库中不存在人类创作的答案时,ChatGPT智能系统便是“无解”。然而,对于理论科学来说,最重要的是推导出新的能够解释这个世界的理论公式。尽管AI大模型可以产生正确的“科学”预测(例如可以预测小球运动轨迹的AI Physicist模型),但这种经由训练而来的AI系统,更像是一个死记硬背学习物理课本的学生,他知道每个问题的正确答案,前提是这个问题在书里出现过,但这并不是真正的科学创新!朱迪亚•珀尔的研究提示引进因果结构模型研究,通过2种研究进路的互补,形成功能—结构深度融合的智能系统或许是新的研究方向。 AI模型的黑箱工作机制导致GPT模型尚不具备理论的可解释能力。哲学家卡尔•波普尔指出,科学家们寻求的不是高度可能的理论而是解释,即强大而高度不可能的理论。然而,GPT模型仍然是一种基于神经网络的黑箱模型,不能解包養網释其内部的工作机制,其表现出来的“智能”也并非类似于人脑结构和认知机制,更像是一个模式匹配统计引擎,输出的仅是统计学上的可能性,这与现实情况下人类的思考模式是大不相同的。人脑只需要少量信息即可运作,因为它不寻求推断数据点之间的直接相关性,而是寻求解释。也就是说,目前的GPT模型核心还是描述和预测,输出结果总还是缺乏了强有力的支撑,不能像人脑一样进行跨领域、跨模态的理论推导。
创新主体迁移及其影响
分析上述内容中的案例可以发现,产业界正逐渐成为GPT助力基础科学研究的核心主体之一。究其原因是GPT模型在科学研究中的参与实现了知识迁移,同时降低了知识获取门槛,由此削弱了学术界的主导地位;同时产业界凭借其充足的AI技术发展资源,使其成为GPT技术创新高地,进而有望成为基础科学研究的核心创新主体之一。
作为开源知识集成库,GPT模型助力知识迁移、降低知识获取门槛
创新主体迁移的根本原因是大量数据训练过的神经网络变为一种新的数据、知识存储模型,GPT类模型更是成为一个拥有丰富知识与经验的“专家”,一个开源知识集成库,由此实现了不同语种间的知识迁移,同时降低了知识获取的门槛。一方面,模型的训练语料是全球各语种的知识库,大多以问答的形式开源给模型的使用者,使全球任何语种的人都能使用大模型来学习不同语言的知识,实现不同语言间的知识迁移;另一方面,由于GPT类模型成为一种新的数据、知识存储模型,让信息检索方式从关键字检索转变成具备完整语义的自然语言人机交互检索,以智能问答的方式改变了原有的知识查询与获取的方式,更甚者是对科研方式的颠覆。简言之,GPT类大模型的存在将会降低科学研究壁垒,吸引更多的学生、产业参与到科学研究中来。
在大模型普及的时代,GPT大模型可以作为辅助教学和学习的工具,支持各水平等级的学生进行个性化、自适应学习,并协助其参与到基础科学研究中。例如,有研究测试了GPT-4在物理教育评估工具“力学概念测试FCI”中的表现情况,发现GPT-4以28分(满分30分)的成绩展示了其在物理学教育中的潜力。然而,GPT虽然可以在通识与专业知识上提供极大帮助,但这代替不了创新性科研人才所必需的批判性思维、好奇心、想象力、经历与经验,这些特质恰恰是受过专业科研训练的人所特有的优势,也是人机协同科研场景中学者发挥优势、寻找定位的立足点。
科学研究壁垒的降低,吸引了更多的企业和非学术机构参与到基础科学研究中。例如,深圳晶泰科技通有限公司过训练蛋白质类的Protein GPT模型,赋能实验机器人的生物研发,使其研发重心逐渐从“实验机器人”转向具备一定生物领域知识的“实验科学家”。
充足的GPT技术发展资源,助力产业界有望成为基础科学研究的核心创新主体之一
GPT模型作为开源知识集成库的存在,降低了知识获取、科学研究的壁垒,一定程度上削弱了学术界在基础科学研究中的主导和控制地位。而产业界凭借其充足的AI技术发展资源,即算力、数据、场景、人和资本等优势的有机融合,使得人工智能驱动的科学研究(AI for Science)正在向产业界倾斜。
从产业界对于AI技术的人才、算力和资金等支配性资源投入上看,AI高科技企业资源已远远超过学术研究机构。2020年,约70%的AI领域博士进入产业界;2021年,产业界模型算力平均比学术界模型大29倍;2021年,全球产业界花费了超过3 400亿美元用于AI,远远超过了公共政策投资。而这种关键性资源的投入正转化为日益突出的AI研究成果中,如源于产业界的相关GPT模型成果有初创公司Profluent研发的ProGen模型。从GPT大模型扩展到整个AI研究领域,产业界还研发,甚至是掌控着AI模型开发工具(例如PyTorch和TensorFlow)、促进深度包養学习模型高效训练的硬件(例如张量处理单元TPU)和可公开访问的预训练模型(例如Open Pretrained Transformer模型)。也就是说,在数据密集型和计算密集型的基础科学领域,如蛋白质结构生成、化合物反应路径生成、实验方案自动生成、高分子材料遴选等领域,产业界对AI算法研究的支配也将赋予产业界塑造基础研究方向的力量。
该现状对于产业界和学界的学科研究定位也将产生相关影响。一方面,产业界商业动机的存在,促使他们将GPT等AI模型更多地应用到以利润为导向的研究领域,如医药、材料等实验计算领域中的科学问题场景中。即计算密集型领域科学问题的突破将慢慢由产业界和学术界共同突破得来,类似于“巴斯德象限”问题(巴氏杀菌的应用研究和基础研究之间存在类似的重叠包養網)。然而,这将潜在引导社会发展方向,并对低收入水平国家的学术研究形成壁垒。另一方面,对于一些根本性的基础研究,如生命的起源、宇宙大爆炸、量子纠缠的形成机制等理论性研究问题,还需要高等院校与科研机构作为最主要的核心创新主体。
关于我国基于GPT技术发展基础科学研究的建议
AI大模型通过重构人类知识检索、运用的基本方式,成为一种新的生产力。然而,由于GPT大模型具有重投入、长周期、快迭代、高风险等特点,决定了GPT大模型在基础科学研究中的竞争是大国游戏。在这场竞赛中,中国正处于奋起直追的关键时期,亟待找到高质量发展的新路。基于上述现状和影响,提出以下3方面建议。
投资研发国家自主可控、受知识产权保护的数据与计算平台,为GPT技术推动基础科学发展提供基础设施建设。纵观全球,有关促使“AI推动基础科学研究”的政策调控陆续出现。从GPT的实现要素看,主要从数据、平台方面加大资源投入。 建立高质量科学数据集势在必行。大模型的“智商”取决于被训练的数据量和知识密度。据了解,包養在GPT-3训练时语料清洗前为45 TB,清洗后570 GB,这表示ChatGPT模型训练时对数据清洗质量具有极致的要求。然而,我国目前高质量的、自主可控的科学数据库较少。可行路径之一为自动抽取已发表科技成果中的科学数据,结构化存储在数据库里,将其打造成AI for Science时代下重要的生产要素和战略资产。将AI数据计算平台打造成科研过程中的基础设施,加大硬件和经费支持。建议打造数据计算通用平台,嵌入科研过程。通用的意义在于使开发人员可以在此基础上解决更多有针对性的问题,快速部署到任何学科领域。此外,各地分散式建设智算中心,将全国统一的AI算力市场和服务市场肢解为一个个孤立破碎的小市场,消解了我国大国大巿场的优势。只有依靠大型科技公司或研发机构“炼大模型”,才能逐步弥补中美在模型层面的差距。对于开源的AI算法进行产业化时,还需要注意到知识产权的风险。例如,深度神经网络算法的基础架构(如Transformer、Attention)已被谷歌申请专利,基于这些模型架构设计的产品存在知识产权风险,或将阻碍我国数智科研的产业化。因此,构建我国自主可控的安全的替代技术尤为重要。
从产学研模式、青年人才资源和知识跨领域流动3方面,为Al推动基础科学发展营造可持续健康生态。大力提倡产学研模式,让参与主体各显本领,保证AI技术健康发展导向。高校、科研机构拥有培养研发人才的责任和优势,更关注科学原理;企业则拥有算力、资金和平台建设能力,对解决工程问题具有独特优势,可以集中人力和财力进行攻关。将高校、科研机构开发的优势与企业的产品化优势有效结合,实现产学研各方的资源共享,优势互补,将健康推动我国基础科学的发展。引人育人,充分培养吸纳海内外青年人才,保证人才资源的不竭供应。青年人才是AI技术及基础科学发展最为宝贵的资源。ChatGPT团队的平均年龄仅32岁,凭借对AI技术的兴趣和信仰,便引爆全球新一轮AI技术浪潮。同时,该团队中华人学者是一支重要的科技创新力量。因此,鼓励国外顶尖学者走进来、国内学者走出去,激发、培养青年人的科技兴趣和信仰,对促进国内前沿科技创新发展也具有重要意义。促进知识跨领域流动,推动AI技术与基础科学发展有机结合。为保障AI技术赋能基础科学研究的可持续性,我国可考虑出台相关跨领域知识交流政策,鼓励AI赋能下的基础科学研究项目等措施。例如,2023年3月27日,科学技术部会同国家自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,鼓励计算机、数据科学、材料、化学、生物等学科的交叉融合,重构知识体系。
鼓励人机协作与科研诚信监管并重,为Al推动基础科学发展营造公开透明的环境。当前,科学研究不可避免地正进入人机协作的时代,微软公司更是认为GPT-4是通用AI的火花。随着相关GPT技术产品在科研领域展开应用,相关工具是否会削弱研究人员的研究能力和地位成为主要问题之一。一方面,类似于Alpha Fold模型、RoseTTAFold模型这样“把一个公认的具有重大意义的科学难题(蛋白质结构生成)突进到几乎破解地步”的情况,展现了AI工具拥有通过图灵测试、进而获得诺贝尔奖的潜力;另一方面,我们还需要清醒地认识到当前的AI for Science模型,包括最新的GPT-4,存在着生成错误文本信息、逻辑推理和因果推断的表现能力较低等问题,因此它们尚不能算是一个完美的科研工具。总的来说,GPT类大模型的应用价值将在文本处理等方面帮助学者处理初级科研任务,或在高维数据建模方面帮助学者处理科研计算任务,但其应用效果还取决于学者的认知水平。此外,针对“ChatGPT自动撰写论文”的问题,国内外知名期刊大多持反对态度。Science明确表示禁止将ChatGPT列为合著者,且不允许在论文中使用ChatGPT所生产的文本;Nature表示可以在论文中使用大型语言模型生成的文本,但不能将其列为论文合著者,只能在方法或致谢中表明。然而,以ChatGPT为代表的通用型AI介入科研生活已成定局,除了“坚持人工验证”“制定问责规则”“投资真正开放的GPT模型”之外,还应加快构建公开透明的“AI文本探测器”,自动识别AI生成的文本,从而使整个科研生态受益。。
(作者:孙蒙鸽、韩涛、王燕鹏、黄雨馨、刘细文,中国科学院文献情报中心中国科学院大学经济与管理学院;编审:金婷,《中国科学院院刊》供稿))
發佈留言