革命性作物育种——新一代人工智能与大数据驱动的智能设计

张颖 ,  黄官民 ,  赵衍鑫 ,  卢宪菊 ,  王艳茹 ,  王传宇 ,  郭新宇 ,  赵春江

Engineering ›› 2025, Vol. 44 ›› Issue (1) : 258 -268.

PDF (4660KB)
Engineering ›› 2025, Vol. 44 ›› Issue (1) : 258 -268. DOI: 10.1016/j.eng.2024.11.034
研究论文

革命性作物育种——新一代人工智能与大数据驱动的智能设计

作者信息 +

Revolutionizing Crop Breeding: Next-Generation Artificial Intelligence and Big Data-Driven Intelligent Design

Author information +
文章历史 +
PDF (4771K)

摘要

种业安全是保证国家粮食安全的重要前提。当前,欧美发达国家和国际种业巨头已进入“生物技术+人工智能(AI)技术+大数据信息技术”的育种4.0时代,而我国尚处于以常规选育和分子育种为主的2.0到3.0阶段。现阶段,国际局势复杂多变,找准我国种业科技创新发展的核心问题、抢占国际种业科技前沿赛道,是确保国内粮食安全和实现种业振兴的重要基础。本文剖析了从人工选择到智能设计育种各阶段作物育种数据的特点,从人工智能与高通量表型获取与解析、多组学大数据库及管理系统构建、基于人工智能的多组学整合分析,以及智能育种软件工具研发等方面梳理了当今人工智能+大数据在作物育种中的应用及发展。最后,在剖析我国种业科技发展现状及问题基础上,提出我国新一代人工智能+大数据智能设计育种的战略目标和重点任务,为早日形成基因挖掘规模化、基因操作高效化、品种设计工程化、生物育种体系化的智能驱动的作物育种工程系统提供参考。

Abstract

The security of the seed industry is crucial for ensuring national food security. Currently, developed countries in Europe and America, along with international seed industry giants, have entered the Breeding 4.0 era. This era integrates biotechnology, artificial intelligence (AI), and big data information technology. In contrast, China is still in a transition period between stages 2.0 and 3.0, which primarily relies on conventional selection and molecular breeding. In the context of increasingly complex international situations, accurately identifying core issues in China’s seed industry innovation and seizing the frontier of international seed technology are strategically important. These efforts are essential for ensuring food security and revitalizing the seed industry. This paper systematically analyzes the characteristics of crop breeding data from artificial selection to intelligent design breeding. It explores the applications and development trends of AI and big data in modern crop breeding from several key perspectives. These include high-throughput phenotype acquisition and analysis, multiomics big data database and management system construction, AI-based multiomics integrated analysis, and the development of intelligent breeding software tools based on biological big data and AI technology. Based on an in-depth analysis of the current status and challenges of China’s seed industry technology development, we propose strategic goals and key tasks for China’s new generation of AI and big data-driven intelligent design breeding. These suggestions aim to accelerate the development of an intelligent-driven crop breeding engineering system that features large-scale gene mining, efficient gene manipulation, engineered variety design, and systematized biobreeding. This study provides a theoretical basis and practical guidance for the development of China’s seed industry technology.

关键词

作物育种 / 新一代人工智能 / 多组学大数据 / 智能设计育种

Key words

Crop breeding / Next-generation artificial intelligence / Multiomics big data / Intelligent design breeding

引用本文

引用格式 ▾
张颖,黄官民,赵衍鑫,卢宪菊,王艳茹,王传宇,郭新宇,赵春江. 革命性作物育种——新一代人工智能与大数据驱动的智能设计[J]. 工程(英文), 2025, 44(1): 258-268 DOI:10.1016/j.eng.2024.11.034

登录浏览全文

4963

注册一个新账户 忘记密码

1 从人工选择到智能设计育种——作物育种进入组学大数据时代

作物遗传育种研究本质上是发现基因型和表型的关联,以开发出满足多样化需求的高质量品种[1]。随着技术进步,作物育种方法经历了革命性转变,从传统的表型选择发展到融合先进基因组技术和大数据分析的智能设计育种。纵观作物育种发展历程,可划分为四个具有里程碑意义的阶段:驯化育种、遗传育种、分子育种和新兴的大数据智能设计育种[2]。在一万年前的驯化育种时代,耕种者依靠对肉眼可见表型的观察,有意识地选择符合既定需求的野生物种并培育成作物[3]。此时的育种处于凭借耕作者经验和技巧的初级状态,存在很大的盲目性和不可预测性。19世纪末,随着遗传学、进化论及有关基础理论的发展和育种效率的提高,作物育种逐渐发展为具有系统理论和科学方法的一门应用科学,并迅速迈入遗传育种阶段。这一时期的作物育种开始融入经典遗传理论[45]、田间试验设计和统计分析等,逐渐形成了可记载、可追溯的育种数据,但数据记载量小,难以形成标准化、定量化的育种数据集。20世纪末,生物技术的发展促进了分子育种理论与技术的突破,随着测序、基因芯片技术等高通量基因型检测技术的普及,以及生物信息技术的快速发展,水稻、小麦、玉米等多种作物的全基因组测序产生了大量数据,构建了完善的基因组数据库。组学信息的释放极大地促进了作物重要性状的遗传解析、功能基因的挖掘及遗传进化机制的阐释[67]。进入21世纪以来,基因组学、分子生物学、成像技术、遥感信息学、大数据科学和人工智能(AI)的深度融合为育种技术创新提供了新机遇。作物表型组学的快速发展突破了传统人工表型鉴定的瓶颈,建立了涵盖微观组织到宏观器官、单株到群体水平的多尺度、多维表型数据集。同时,环境感知技术的进步使科学家能够在多种生境条件下获取和整合高精度、实时的环境信息,为精准育种提供了有力支撑。当前,育种数据呈现出从传统单维度向多组学、高维度转变的趋势[1],多层次生物信息的整合为加速作物遗传改良奠定了更全面、更深入的数据基础(图1)。

数百年的育种历程积攒了大量育种数据,而近年来基因组学和表型组学技术的快速发展,推动作物科学乃至植物科学进入一个大数据、大发现的组学研究时代[8]。高通量的环境传感器和作物表型获取设备正在产生越来越多的半结构化和非结构化数据(如图像、点云和光谱[9])。海量作物基因组及其多组学数据呈现规模大、维度高、噪声大、异质性强等特点,但传统的数据分析和表达方法已无法满足复杂、多维、异质性信息的高效、精准解析。在此背景下,2018年美国康奈尔大学玉米遗传育种学家、美国科学院院士Edwards Buckler教授提出“育种4.0”,即智能设计育种[1]的构想。智能设计育种是在生物技术的基础上融合大数据、人工智能等技术进行基因编辑的智能育种阶段,旨在实现作物新品种高效、个性化选育,从而推动育种从“科学”到“智能”的颠覆性转变[1011]。

2 人工智能驱动的作物育种工程——人工智能遇上生物大数据

随着人工智能和大数据时代的到来,信息技术在复杂对象的特征表征、多模态融合、基因挖掘、表型预测等方面表现出独特的优势。作物育种作为大数据和现代基因组学的重要应用领域,对人工智能既存在需求,也为其提供应用场景[12]。

2.1 高通量表型获取与解析突破育种性状获取瓶颈

伴随作物功能基因组学的飞速发展,传统表型技术的瓶颈日益凸显,在此背景下作物表型组学应运而生。通过生物学、机械学、图形图像、计算科学等多学科交叉,以新型物理、化学和生物生理传感器为依托,结合人工智能技术及物联网(IoT)技术为代表的新一代表型获取装备体系,正在为海量育种试验数据获取提供技术支撑,突破了几百年来“一把尺子一杆秤”的作物性状获取瓶颈,实现了表型数据的高通量、自动化和少人化采集。

作物表型组学显著提升了育种性状获取的效率、多样性和精确度[图2(a)]。高分辨率无人机(UAV)监测在多种作物农艺性状识别中得到应用,如株高、生物量、植被指数、穗部识别和衰老量化[1315]。提高生物和非生物胁迫抗性的表型鉴定对维持作物改良计划的遗传增益至关重要。无人机或无人车表型平台可用于高通量获取开花时间、产量构成、光合生产力等信息,这些生理性状和过程对于理解作物在生殖和灌浆期对干旱和热胁迫的响应具有重要意义[16]。此外,结合激光雷达、高光谱、微型计算机断层扫描(micro-CT)和红绿蓝(RGB)多光学成像技术的高通量作物表型平台可用于盐胁迫、干旱等逆境条件下作物连续无损测定,获取丰富的多源表型性状,该方法克服了传统胁迫相关性状筛选方法速度慢、耗时费力、精度低和破坏性等缺点[1718]。新兴的激光消融断层扫描(LAT)和CT等微观表型技术与多组学研究相结合,为作物产量和抗逆性的遗传改良提供了新视角[19]。随着微观表型性状的精确识别,越来越多的抗逆基因被发现,如后生木质部导管数量(KNAT7ZmTIP1)、中柱面积(OsNACs)、皮层细胞(bHLH121)以及茎秆木质部和韧皮部性状(NAC91)[2022]等。这些进展将进一步推动智能精准育种,为应对全球农业挑战提供强有力的技术支撑[9,23]。

2.2 多组学数据库与管理系统构筑作物多维组学大数据

基因组学、转录组学、蛋白质组学和代谢组学分析设备的快速发展,加之高通量表型组学获取分析技术装备和环境信息采集技术的进步,导致作物生物数据在多组学和高维度层面实现前所未有的积累。近年来,主要作物多组学数据库和管理系统相继构建发布,标志着作物科学研究步入数据驱动的新时代。2020年,华中农业大学研究团队整合了同一玉米群体的多组学数据,包括基因组、转录组、表型组、代谢组、表观基因组、遗传变异和遗传图谱结果,构建了ZEAMAP数据库,实现玉米多组学数据的云端整合、快速检索和智能分析,为分子设计育种奠定基础[24]。随后,该团队发布了首个玉米多组学数据整合网络图谱,并成功运用机器学习方法预测了一批重要功能基因,包括控制玉米开花时间等关键性状的分子调控通路[25]。2022年,北京农林科学院利用先进表型组学技术获取了全球1000多份生菜种质资源的表型数据,结合重测序数据构建了综合性的生菜多组学数据库LettuceGDB,为生菜育种提供了丰富的数字资源[26]。2024年,广州大学等机构整合了大豆基因组、转录组、变异组、表观遗传和表型组等六个组学领域数据,构建了目前最系统、最全面的大豆多组学数据库SoyMD [27]。同年,黄瓜(Cucumber-DB)[28]和狗尾草(Setaria-DB)[29]的综合性多组学数据库也相继发布,为作物遗传育种研究提供了重要的数据资源和分析平台(表1 [2437])。

目前,水稻、小麦、玉米、大豆等主要作物的多组学大数据库和管理系统已经建立。与传统基因组数据库相比,多组学大数据库提供了更全面、更丰富的遗传变异信息,以及它们与多组学数据的关联。同时,这些数据库具有更友好的界面和增强的功能。多组学信息的系统整合能显著提高研究人员挖掘候选变异和基因的效率,为加速作物遗传研究和优化优良农艺性状奠定坚实的数据基础。

2.3 基于人工智能的多组学整合分析——破译作物功能基因组的关键技术

现代育种大数据因融入多组学和时空组学信息,呈现出“9V特征”[数据量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)、可变性(Variability)、有效性(Validity)、可见性(Visibility)、价值(Value)、复杂性(Vexing)],需要借助人工智能技术进行系统化的数据分析、处理、挖掘和预测[38]。随着人工智能技术进步和多组学数据积累,科学家正在探索新方法解析复杂作物性状。株高、产量、抗病性和抗逆性等性状通常由多基因调控网络共同调控,网络中涉及的海量基因和变量长期制约科学家揭示其互作关系。虽然经典遗传学方法已克隆和分析了部分重要功能基因,但进展相对缓慢。即使在功能基因组学提出近20年后,水稻和玉米中完成克隆和功能鉴定的基因仍不足总数的10% [18]。人工智能和大数据在复杂对象表征、多模态融合、基因挖掘和网络分析方面展现出独特优势,为多组学系统解释生物复杂性提供了可能[9,39]。2023年,华中农业大学研究团队在该领域取得重大突破,成功构建玉米首个多组学整合网络图谱,涵盖基因组、转录组和蛋白质组等多个遗传层次的200万个网络关系。利用先进机器学习算法,通过深入挖掘整合网络图谱,研究人员预测了2651个候选开花时间基因,基于功能相似性将其分为8个子网络通路,并完成20个基因的功能验证。通过该整合图谱准确定位了63个已知调控玉米籽粒发育的克隆基因中的62个,充分证明其可靠性和准确性。研究团队还成功预测和验证了五肽重复(PPR)蛋白对玉米籽粒皱缩的遗传调控机制。这项研究为系统分析基因功能和性状变异的遗传机制提供了新的手段,在一定程度上革新了经典遗传研究范式[25]。此外,研究证实了基于深度学习或迁移学习的多性状模型较统计分析的单性状预测模型具有显著优势[4042]。

人工智能驱动的多组学分析不仅加快了基因功能发现的进程,还为构建精确调控网络模型提供了强大工具,真正成为解开作物遗传密码的“钥匙”[图2(a)]。

2.4 基于生物大数据的人工智能育种工具加速作物改良

人工智能技术为现代作物育种迭代提供了新工具,展现出巨大应用潜力。通过将作物大数据与人工智能相结合,研究人员可对基因组、表型等大数据进行精确计算和建模,实现高效模拟育种,加速作物遗传改良。基因组学和表型组学的进步使获取前所未有的遗传和表型信息成为可能,推动育种从传统经验型向智能基因组选择(GS)转变。通过整合基因型、表型和环境数据构建大数据模型,育种家可以准确预测表型个体的遗传潜力,优化杂交方案[38],显著缩短育种周期并提高选择准确性[43]。国内外研究团队相继发布基于作物大数据和人工智能技术的智能设计育种平台(表2),实现从数据收集、处理、机器学习到模型建立、部署和应用的全流程智能化。基因组选择育种技术在美国等发达国家已进入产业化阶段或准备阶段。研究人员通过多组学数据整合和人工智能模型预测,为精确作物设计提供可靠目标。种业巨头孟山都在全球数百个试验站建立数万个试验点收集多维数据,利用人工智能技术创建基因型-表型-环境互作的育种预测算法,筛选优良组合,从而大大缩短育种周期并提高育种效率。中国农科院作物所与阿里巴巴达摩院联合研发出智慧育种平台,实现了育种数据管理和分析、计算加速、AI预测亲本及优良品种的育种全流程整合[44]。该平台使针对基因测序数据的变异位点计算加速110倍,群体遗传学分析加速1000倍以上;全基因组选择算法准确率平均提升15%以上,为未来育种工作的精度和效率奠定了坚实的基础。

生物大数据和人工智能技术的深度融合,使海量计算组合组配后产生的“理想表型”成为可能,促进精确设计和高效实现自然变异的最佳组合,实现数字化、定制化、智能化的育种新模式[10,39,45],如图2(a)所示。

2.5 智能驱动的作物工程——基因挖掘规模化、基因操作高效化、品种设计工程化、生物育种体系化

如今,分子设计育种4.0时代正从理论变成现实,朝着数字化、信息化、智能化的智能设计育种方向发展。以新型物理、化学和生物生理传感器为依托,结合人工智能技术及物联网技术,实现了作物表型的高通量获取与智能解析;利用新一代人工智能技术的多组学整合研究,使越来越多的功能基因被识别、基因表达调控途径被解析、表型和蛋白质结构被精准预测;新开发的基因组编辑技术可以轻松修改基因组序列,几乎可以对任何感兴趣的基因进行突变或对目标基因进行编辑,从而实现基于工程的设计育种。未来,AI、生物技术与信息技术(BT + IT)深度融合,将使作物智能设计育种具有“双轮驱动”特征:智能化的杂交育种以育种大数据和育种模型为基础,精准设计自然变异的最优组合,数字化模拟杂交组配方式实现自然变异的最优组合;智能化的生物育种利用人工智能技术和合成进化技术,设计DNA、蛋白质序列,可以实现“道法自然、超越自然”,指导作物的基因编辑育种和合成生物学。最终,未来育种将形成基因挖掘规模化、基因操作高效化、品种设计工程化、生物育种体系化的智能驱动的作物工程[45],如图2(b)所示。

3 我国种业科技发展现状及问题剖析

3.1 我国种业科技发展现状分析

3.1.1 我国农作物种质资源精准鉴定进展迅速

种源是农业的“芯片”,优异种质资源是培育优良品种的关键前提。我国农作物种质资源工作起源于20世纪50年代,1986年国家作物种质库建立,由此标志着我国正式开始组织和管理种质资源。至2002年年底,我国已初步建立起以长期库为核心,以复份库、中期库、种质圃等为支撑,并与国家基因库相结合的农作物种质资源保存体系[4647]。根据2023年公布的《可供利用的农作物种质资源目录》,我国国家作物种质库(圃)长期战略保存种质资源达到53万余份,位居全球第二,仅次于美国。2021年,农业农村部全面启动农作物种质资源精准鉴定工作。截至2023年2月,已完成了首批7.6万份资源的基因型和表型鉴定,突出高产、优质、绿色、抗病虫、耐盐碱、抗逆等重要目标性状,开展表型(连续3年多点鉴定)和基因型(重测序和芯片标记)鉴定,挖掘出一批高产、养分高效、抗病虫、抗逆的优异种质和基因并用于育种创新。

3.1.2 育种技术的数字化转型

作物育种正经历从传统杂交育种到分子育种,再到智能育种的深刻数字化转型。在杂交育种阶段,我国在杂交水稻、小麦及某些特有品种的育种技术方面具有显著优势。通过杂种优势利用、远缘杂交、植物染色体杂交及诱变等技术的持续突破,培育了十字花科蔬菜、粮油植物等多个新品种,部分品种如超级稻、高产杂交玉米和优质专用小麦等已实现了产业化应用[45,47]。这些技术主要依赖于表型性状的观察和选择,因而有显著的不确定性和长周期性。随着分子生物学和基因组学的快速发展,育种技术进入分子育种阶段。近10年,我国科学家相继定位并克隆了一批控制产量、株型、抗病、抗旱等重要性状的关键基因,揭示了这些基因的分子遗传调控机制,为作物遗传改良提供了一批具有独立知识产权的基因资源;创建了作物基因组单碱基编辑技术体系,改进了玉米单倍体育种和主要农作物智能雄性不育等新技术;建立了完整的转基因育种技术体系,显著提升了水稻、小麦、玉米、大豆等主要粮食作物的遗传转化效率[47]。

目前,育种技术正向智能育种阶段迈进,以如成簇规律间隔短回文重复序列及其关联蛋白9(CRISPR/Cas9)的基因编辑、基因组选择和人工智能设计育种等前沿技术为标志。智能育种通过整合高通量基因组测序、表型组学和代谢组学等多组学数据,依托大数据分析与机器学习算法,实现对最优育种组合的预测与筛选。尽管现代智能育种技术仍处于发展初期,但其核心在于生物数据与信息技术的深度融合,旨在构建高效、精准、智能化的种业创新体系。尽管生物数据大量涌现,但大数据分析、信息化以及软件系统开发与应用不够,在育种领域仍缺乏能够直接应用的技术方法,数据技术与信息技术深度融合的种业创新体系尚未形成。该体系的建立将大幅缩短育种周期、提升育种效率,并为应对全球气候变化与粮食安全挑战提供有力支撑。

3.2 我国种业技术发展与全球前沿的差距分析

全球种业正经历快速的技术进步,育种过程日益精准、高效和智能化。本节从科技创新能力和核心技术[图3(a)]、智能育种系统[图3(b)]、种质资源利用[图3(c)]和市场竞争力[图3(d)]等关键维度,全面分析我国种业与国际领先水平的现状差距。

3.2.1 科技创新能力和核心技术

我国在种业科技创新方面与国际领先国家存在显著差距。以美国为例,其在生物育种领域占据主导地位,拥有全球80%的核心专利。截至2021年年初,我国在分子育种领域发表的高被引研究论文为403篇,仅为美国的一半[4849]。在核心育种技术方面,我国主要处于“跟跑”或“并跑”地位,基因组测序和基因编辑等关键技术仍较依赖国外技术原理和方法[47,50]。虽然我国近期加大了作物表型组学等新兴领域的投入,但在原创性突破和产业应用方面仍落后于国际前沿。特别是在全基因组选择和人工智能驱动的设计育种等技术领域,发达国家已进入产业应用阶段,而我国仍处于实验研究和开发阶段[47]。

3.2.2 智能育种系统和大数据应用

在智能育种系统和大数据应用方面,我国与国际领先企业存在较大差距。过去20年,科迪华等欧美主要种业公司已完成大规模育种数据积累和育种过程数字化转型,通过与专业基因组大数据公司(如NRGene)和植物表型公司(如LemnaTec)进行战略合作,建立了商业化智能育种系统。相比之下,我国在育种大数据管理系统、数据分析平台和核心算法等方面仍存在明显短板,尚未开发出具有自主知识产权的基因型-表型预测和全基因组选择等关键育种决策模型。这些限制因素严重阻碍了我国在精准高效育种领域的发展进程。

3.2.3 种质资源利用和精准鉴定

虽然我国拥有丰富的种质资源总量,但在高质量资源比例和利用效率方面与国际水平存在明显差距。美国拥有72万份种质资源,其中外来资源占比80%,有效利用率超过10%。相比之下,我国虽有56万余份种质资源,但高质量外来资源比例不足25%,且完成全面精准鉴定的比例较低[47]。以玉米种质资源为例,仅完成了约10%关键农艺性状的综合表征[12,39],而美国等国家已广泛应用高通量表型和标记辅助选择等技术进行系统鉴定。

3.2.4 产业结构和市场竞争力

我国种业结构相对分散,市场竞争力有待提升。全球种子市场呈现高度集中特征,以美国科迪华公司为例,2020年其占全球市场份额的17%,在玉米领域拥有27.5%的全球分子育种专利。相比之下,我国拥有7000多家作物种子公司,但规模普遍偏小、竞争力不足。我国前十大种子公司年销售总额仅约100亿元人民币,且80%的企业未拥有植物新品种权,仅2.3%的企业拥有10个以上新品种权,产业结构亟待优化。

总之,尽管我国种业近年取得显著进展,但在科技创新能力、核心技术掌握、智能育种系统建设、种质资源利用和产业结构等方面与国际领先水平仍存在明显差距。美国、欧盟等发达国家和地区在政策支持、资金投入、技术创新和产业应用等方面持续保持领先优势。

3.3 面向育种实践的关键技术发展趋势分析

近年来,生物技术与信息技术在作物育种领域实现深度融合[50]。未来,高通量表型技术、基于大数据的多组学分析技术和农业大模型技术等前沿育种技术的广泛应用,将加速我国从传统育种向智能设计育种转型,实现品种培育的提质增效。这三项技术将成为育种者和地方育种单位在育种实践中的关键应用方向。

(1)高通量智能表型技术。作物表型的高通量智能获取长期以来一直是育种领域的技术瓶颈。表型鉴定的复杂性及其对环境的高度敏感性严重制约了大规模种质筛选和遗传改良进程。新一代高通量表型技术能够实现对作物形态结构、生理功能和环境响应等内外部状态的精确测量,并可对全生育期表型数据进行实时监测和精确识别[51]。这一技术突破推动育种从“群体选择”向“个体选择”转变,使育种过程逐步实现“可感知、可量化、可计算、可控制、可预测”的智能设计目标。

(2)多组学大数据分析技术。我国作物基因鉴定研究目前存在“三多三少”现象:预测基因多而定位克隆基因少,水稻基因发现多而其他作物少,已鉴定基因多而具有重要应用价值的基因少[52]。通过多组学、系统生物学和合成生物学的交叉融合,整合多组学大数据和环境变量数据,可深入阐明基因-环境-表型的内在联系和互作机制。这将有助于全面解析玉米、小麦等作物在复杂环境条件下产量、抗病性、抗逆性等重要性状形成的调控网络和环境适应性分子基础[53],为开发智能决策支持的设计育种技术提供理论依据,加速培育多性状协同改良的突破性品种。

(3)农业大模型技术。当前实验室研究与育种生产的数据仍相对割裂,亟须加强数据科学和信息技术在育种研究中的应用,推动农业大模型技术在作物育种生产决策、管理和运营中发挥更大作用。通过构建具有数十亿参数的复杂系统模型,利用育种领域的多源大数据和专家知识进行垂直领域训练,可实现对育种生产控制、气候变化、市场波动等复杂场景的智能应对。这将有助于优化作物种植、土壤管理、水资源利用和病虫害防控等关键环节,推动育种向数据驱动和智能化方向转型。

4 我国新一代人工智能和大数据智能设计育种的发展建议

当前,全球种业已进入空前的密集创新和产业变革时代,大数据、人工智能等相关技术成为构建种业强国的数字底座[54]。作物科学与数据科学、计算科学的结合越来越紧密,未来育种向智能化方向迭代发展[5556]。在此背景下,人工智能、信息技术与常规育种、生物技术深度融合,解决作物种质资源表型精准鉴定技术、多重组学大数据整合分析模型算法等瓶颈问题,强化种质资源深度挖掘,加速智能设计育种创新体系构建[51],是培育战略性新品种、打赢种业翻身仗、实现我国种业跨越式发展的关键[4749,56]。

4.1 发展思路与目标

针对农作物高通量表型精准鉴定、有重大育种价值的关键基因挖掘、分子聚合育种技术等诸多“受制于人”的关键问题,我们建议以我国种质资源库为基础,重点开展多生境无人化作物表型智能获取技术、多源异构信息融合机理与解析技术、组学大数据分析及智能设计育种算法模型技术研究等;建立农业生物组学大数据,解析重要农作物关键性状的遗传调控机制;构建基因型-表型-环境型多维大数据驱动的精准育种决策系统。以此打造基于作物组学大数据的数字育种协同创新平台,突破我国生物种业瓶颈制约。

到2040年,针对表型数据多尺度、多维度、多模态、多生境特征,重点突破数据获取过程中的自动控制、智能路径规划、高效远程传输和数据自检等一批前沿核心技术,创制集成传感器阵列,研发作物表型成像单元,打破国际垄断,带动我国在新一代表型平台技术装备创新从跟跑、并跑逐渐向领跑转变[57];在表型组大数据智能解析方面,突破多模态数据融合、系列作物形态-结构-生理等多种表型信息智能解析技术,构建作物多维度、多尺度、多模态表型认知图谱,结合机理模型和机器学习实现表型智能认知,形成自主化的作物表型解析技术体系;利用深度学习、数据融合、混合智能等技术,研发多组学大数据整合、挖掘、功能解析和育种决策等一系列模型算法[50],发展基因型-表型-环境型多维大数据驱动的智能育种创新模式研究;打造基于作物多组大数据的智能育种协同创新平台,形成基因挖掘规模化、基因操作高效化、品种设计工程化、生物育种体系化的作物育种工程。

4.2 发展建议

4.2.1 多学科交叉融合加速作物表型感知机理研究

生物学、机械学、图形图像、计算科学等多学科的交叉,以新型物理、化学、生物、生理传感器为依托,融合物联网、云计算和人工智能技术,加速了作物表型感知机理研究及作物表型组平台系统建设[51]。面向2040年,综合运用自动控制、机器人和新一代通信技术,集成各类新型传感器,发展从微观(组织器官)、中观(单株)到宏观(群体)的作物全生育期、多尺度、多生境和多模态表型数据高通量采集系统与装备,实现全生育期、复杂生长条件下作物形态结构、颜色纹理、生理生化、动态节律等表型的高通量、自动获取[57]。利用深度学习、边缘计算、混合智能发展作物表型多模态数据融合解析算法和计算载体协同优化技术,实现全生命周期作物表型数据实时快速解析[58];构建作物多维度、多尺度、多模态表型认知图谱[59],结合机理模型和机器学习实现表型智能认知[60];坚持应用需求导向,加强表型性状预测、作物表型智能设计等与商业化育种产业的结合,最终实现“机器替代人力”“自主技术替代进口”的重大转变。实现这一目标仍面临诸多挑战,包括多尺度、多模态数据的实时整合,以及传感器在复杂田间环境中的稳定性等问题,其关键突破方向包括开发高精度、低成本传感器,构建海量实时数据处理的边缘计算算法,以及推进植物生理学与计算机科学的深度融合[19,6162]。

4.2.2 大力发展数据驱动的精准设计育种

以“数据驱动、精准分析、智能决策”为核心理念,研究者开发了基于作物多组学大数据的智能设计育种核心算法模型[54]。通过构建具有自主知识产权的基因型-表型预测和全基因组选择育种决策模型库[63],打破了外国产品在育种软件市场的长期垄断,填补国内自主知识产权育种软件和决策模型的空白,确保我国作物育种数据资源的自主可控。面向2040年,可利用深度学习、数据融合、混合智能等技术,发展多组学大数据整合、挖掘和功能解析算法[50],为深度解析作物复杂性状的枢纽基因与调控网络提供技术支撑,实现一批复杂性状调控基因的规模化挖掘与表型的精准预测。研发源头创新的基因组智能设计和全基因组选择预测新模型算法,有助于构建“基因型-表型-环境”多维大数据驱动的育种决策模型。进一步融合基因编辑、生物合成技术可形成基因挖掘规模化、基因操作高效化、品种设计工程化、生物育种体系化的育种新模式[64]。尽管前景广阔,但在整合异构大数据、精准预测复杂基因型-表型关系、平衡数据共享与知识产权保护等方面仍存在重大挑战[65]。为解决上述问题,需重点突破的领域包括高效多组学数据集成算法、精准基因组编辑技术和复杂生物系统大规模计算模型的构建等。

4.2.3 协同创新平台建设

融合下一代人工智能和大数据的智能设计育种是一个协同创新、多学科交叉合作的新的育种模态[64],需要农学、分子遗传育种、生物信息学、计算机图形图像、计算数学、自动化、生物传感器等多学科的专业技术力量的协同融合[66]。目前,我国育种研究力量分散且薄弱、各自为战情况严重,各研究机构间存在数据不共享、信息不连通的问题,这严重制约了资金、设备的使用率、资源利用率及成果产出率[55]。另外,基因组学、遗传育种领域的科研人员缺乏计算科学的背景,图形图像、计算数学领域的研究人员又不懂生物学知识,跨专业的复合型人才短缺,极大限制了学科交叉融合、协同创新能力的提高。因此,建议国家层面做好顶层设计,构建协同创新、开放共享、激励约束的协同创新机制,开展大联合、大协作。面向2040年,重点支持和培育领军型、旗舰型科研平台和育种企业,集中攻关核心技术难题,破解基础研究与商业育种之间的碎片化和脱节问题,推进学科交叉融合、科企深度融合,集中攻关,以建立标准化、程序化、信息化和规模化的智能育种体系,培育一批高产优质多抗高效农业生物新品种,确保国家食物安全、提高农业国际竞争力[67]。

参考文献

[1]

Wallace JG, Rodgers-Melnick E, Buckler ES. On the road to breeding 4.0: unraveling the good, the bad, and the boring of crop quantitative genomics. Annu Rev Genet 2018;52:421‒44. . 10.1146/annurev-genet-120116-024846

[2]

Zhang Y, Liao S, Wang J, Guo X, Yang X, Zhao C. Information technology and intelligent equipment facilitating smart breeding. J Jilin Agric Univ 2021;43(2):119‒29. Chinese.

[3]

Moose SP, Mumm RH. Molecular plant breeding as the foundation for 21st century crop improvement. Plant Physiol 2008;147(3):969‒77. . 10.1104/pp.108.118232

[4]

Fisher RA. The correlation between relatives on the supposition of mendelian inheritance. Trans R Soc Edinb 1919;52(2):399‒433. . 10.1017/s0080456800012163

[5]

Wright S. Systems of mating. I. The biometric relations between parent and offspring. Genetics 1921;6(3):111‒23. . 10.1093/genetics/6.2.111

[6]

Risch N, Merikangas K. The future of genetic studies of complex human diseases. Science 1996;273(5281):1516‒7. . 10.1126/science.273.5281.1516

[7]

Meuwissen THE, Hayes BJ, Goddard ME. Prediction of total genetic value using genome-wide dense marker maps. Genetics 2001;157(4):1819‒29. . 10.1093/genetics/157.4.1819

[8]

Zhao C. Big data of plant phenomics and its research progress. J Agric Big Data 2019;1(2):5‒14. Chinese.

[9]

Zhao C, Zhang Y, Du J, Guo X, Wen W, Gu S, et al. Crop phenomics: current status and perspectives. Front Plant Sci 2019;10:714. . 10.3389/fpls.2019.00714

[10]

Wang X, Cai Z. Era of maize breeding 4.0. J Maize Sci 2019;27(1):1‒9. Chinese.

[11]

Jing H, Tian Z, Chong K, Li J. Progress and perspective of molecular design breeding. Sci Sin Vitae 2021;51(10):1356‒65. Chinese. . 10.1360/ssv-2021-0214

[12]

Farooq MA, Gao S, Hassan MA, Huang Z, Rasheed A, Hearne S, et al. Artificial intelligence in plant breeding. Trends Genet 2024;40(10):891‒908. . 10.1016/j.tig.2024.07.001

[13]

Hassan MA, Yang M, Rasheed A, Tian X, Reynolds M, Xia X, et al. Quantifying senescence in bread wheat using multispectral imaging from an unmanned aerial vechicle and QTL mapping. Plant Physiol 2021;187(4):2623‒36. . 10.1093/plphys/kiab431

[14]

Bhandari M, Chang A, Jung J, Ibrahim AMH, Rudd JC, Baker S, et al. Unmanned aerial system-based high-throughput phenotyping for plant breeding. Plant Phenome J 2023;6(1):e20058. . 10.1002/ppj2.20058

[15]

Lyu M, Lu X, Shen Y, Tan Y, Wan L, Shu Q, et al. UAV time-series imagery with novel machine learning to estimate heading dates of rice accessions for breeding. Agric Meteorol 2023;34:109646. . 10.1016/j.agrformet.2023.109646

[16]

Gill T, Gill SK, Saini DK, Chopra Y, de Koff JP, Sandhu KS. A comprehensive review of high throughput phenotyping and machine learning for plant stress phenotyping. Phenomics 2022;2(3):156‒83. . 10.1007/s43657-022-00048-z

[17]

Wu D, Wu D, Feng H, Duan L, Dai G, Liu X, et al. A deep learning-integrated micro-CT image analysis pipeline for quantifying rice lodging resistance-related traits. Plant Commun 2021;2(2):100165. . 10.1016/j.xplc.2021.100165

[18]

Guo L, Wang X, Tian F. Multi-omics integrative network map, a key to accurately decoding the maize functional genomics. Chin Bull Bot 2023;58(1):1‒5. Chinese.

[19]

Zhang Y, Gu S, Du J, Huang G, Shi J, Lu X, et al. Plant microphenotype: from innovative imaging to computational analysis. Plant Biotechnol J 2024;22(4):802‒18. . 10.1111/pbi.14244

[20]

Barrieu F, Chaumont F, Chrispeels MJ. High expression of the tonoplast aquaporin ZmTIP1 in epidermal and conducting tissues of maize. Plant Physiol 1998;117(4):1153‒63. . 10.1104/pp.117.4.1153

[21]

Liu M, Zhang M, Yu S, Li X, Zhang A, Cui Z, et al. A Genome-wide association study dissects the genetic architecture of the metaxylem vessel number in maize brace roots. Front Plant Sci 2022;13:847234. . 10.3389/fpls.2022.847234

[22]

Schneider HM, Lor VS, Zhang X, Saengwilai P, Hanlon MT, Klein SP, et al. Transcription factor bHLH121 regulates root cortical aerenchyma formation in maize. Proc Natl Acad Sci USA 2023;120(12):e2219668120. . 10.1073/pnas.2219668120

[23]

Wen W, Gu S, Zhang Y, Yang W, Guo X. Standard framework construction of technology and equipment for big data in crop phenomics. Engineering. 2024;42:175‒84. . 10.1016/j.eng.2024.06.001

[24]

Gui S, Yang L, Li J, Luo J, Xu X, Yuan J, et al. ZEAMAP, a comprehensive database adapted to the maize multi-omics era. iScience 2020;23(6):101241. . 10.1016/j.isci.2020.101241

[25]

Han L, Zhong W, Qian J, Jin M, Tian P, Zhu W, et al. A multi-omics integrative network map of maize. Nat Genet 2023;55(1):144‒53. . 10.1038/s41588-022-01262-1

[26]

Guo Z, Li B, Du J, Shen F, Zhao Y, Deng Y, et al. LettuceGDB: the community database for lettuce genetics and omics. Plant Commun 2022;4(1):100425. . 10.1016/j.xplc.2022.100425

[27]

Yang Z, Luo C, Pei X, Wang S, Huang Y, Li J, et al. SoyMD: a platform combining multi-omics data with various tools for soybean research and breeding. Nucleic Acids Res 2024;52(D1):D1639‒50. . 10.1093/nar/gkad786

[28]

Guan J, Miao H, Zhang Z, Dong S, Zhou Q, Liu X, et al. A near-complete cucumber reference genome assembly and Cucumber-DB, a multi-omics database. Mol Plant 2024;17(8):1178‒82. . 10.1016/j.molp.2024.06.012

[29]

He Q, Wang C, He Q, Zhang J, Liang H, Lu Z, et al. A complete reference genome assembly for foxtail millet and Setaria-DB, a comprehensive database for Setaria-DB. Mol Plant 2024;17(2):219‒22. . 10.1016/j.molp.2023.12.017

[30]

Gu Z, Gong J, Zhu Z, Li Z, Feng Q, Wang C, et al. Structure and function of rice hybrid genomes reveal genetic basis and optimal performance of heterosis. Nat Genet 2023;55(10):1745‒56. . 10.1038/s41588-023-01495-8

[31]

Yang Z, Wang S, Wei L, Huang Y, Liu D, Jia Y, et al. BnIR: a multi-omics database with various tools for Brassica napus research and breeding. Mol Plant 2023;16(4):775‒89. . 10.1016/j.molp.2023.03.007

[32]

Liu Y, Zhang Y, Liu X, Shen Y, Tian D, Yang X, et al. SoyOmics: a deeply integrated database on soybean multi-omics. Mol Plant 2023;16(5):794‒7. . 10.1016/j.molp.2023.03.011

[33]

Li X, Hou S, Feng M, Xia R, Li J, Tang S, et al. MDSi: multi-omics database for Setaria italica . BMC Plant Biol 2023;23(1):223. . 10.1186/s12870-023-04238-3

[34]

Yang Z, Wang J, Huang Y, Wang S, Wei L, Liu D, et al. CottonMD: a multi-omics database for cotton biological study. Nucleic Acids Res 2023;51(D1): D1446‒56. . 10.1093/nar/gkac863

[35]

Sun M, Yan H, Zhang A, Jin Y, Lin C, Luo L, et al. Milletdb: a multi-omics database to accelerate the research of functional genomics and molecular breeding of millets. Plant Biotechnol J 2023;21(11):2348‒57. . 10.1111/pbi.14136

[36]

Cui X, Hu M, Yao S, Zhang Y, Tang M, Liu L, et al. BnaOmics: a comprehensive platform combining pan-genome and multi-omics data from Brassica napus . Plant Commun 2023;4(5):100609. . 10.1016/j.xplc.2023.100609

[37]

Chen Y, Guo Y, Guan P, Wang Y, Wang X, Wang Z, et al. A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement. Mol Plant 2023;16(2):393‒414. . 10.1016/j.molp.2022.12.019

[38]

Xu Y, Zhang X, Li H, Zheng H, Zhang J, Olsen MS, et al. Smart breeding driven by big data, artificial intelligence, and integrated genomic-enviromic prediction. Mol Plant 2022;15(11):1664‒95. . 10.1016/j.molp.2022.09.001

[39]

Liu L, Zhan J, Yan J. Engineering the future cereal crops with big biological data: toward an intelligence-driven breeding by design. J Genet Genomics 2024;51(8):781‒9. . 10.1016/j.jgg.2024.03.005

[40]

Montesinos-López OA, Montesinos-López A, Luna-Vázquez FJ, Toledo FH, Pérez-Rodríguez P, Lillemo M, et al. An R package for Bayesian analysis of multi-environment and multi-trait multi-environment data for genome-based prediction. G3-Genes Genom Genet 2019;9(5):1355‒69. . 10.1534/g3.119.400126

[41]

Sandhu K, Patil SS, Pumphrey M, Carter A. Multitrait machine- and deep-learning models for genomic selection using spectral information in a wheat breeding program. Plant Genome 2021;14(3):e20119. . 10.1002/tpg2.20119

[42]

Li J, Zhang D, Yang F, Zhang Q, Pan S, Zhao X, et al. TrG2P: a transfer learning-based tool integrating multi-trait data for accurate prediction of crop yield. Plant Commun 2024;5(7):100975. . 10.1016/j.xplc.2024.100975

[43]

Zamir D. Where have all the crop phenotypes gone? PLoS Biology 2013; 11(6): e1001595. . 10.1371/journal.pbio.1001595

[44]

Li H, Li X, Zhang P, Feng Y, Mi J, Gao S, et al. Smart breeding platform: a web-based tool for high-throughput population genetics, phenomics, and genomic selection. Mol Plant 2024;17(5):677‒81. . 10.1016/j.molp.2024.03.002

[45]

Wang H, Lai J, Wang H, Li X. Bipartite intelligent design of crops-intelligent combination of natural variation and intelligent creation of artificial variation. J Agric Sci Technol 2022;24(6):1‒8. Chinese.

[46]

Lu X, Chen X. Progress of conservation and research of crop germplasm resources in China. Scienti Agric Sinica 2003;36(10):1125‒32. Chinese.

[47]

Wan JM. Accelerate innovation in biological breeding. Public Commun of Sci & Technol 2022;14(8):F2. Chinese.

[48]

Chi P, Xie H, Zhao P, Chen F, Wu N, Tian Z, et al. Development and issues of biotech seed industry in China. Bull Chin Acad Sci 2023;38(6):845‒52. Chinese.

[49]

Chong K, Li JY. The development of plant science has brought about a new revolution in breeding technology. Scientia Sinica Vitae 2021;51(10):1353‒5. Chinese. . 10.1360/ssv-2021-0367

[50]

Hickey LT, Hafeez AN, Robinson H, Jackson SA, Leal-Bertioli SCM, Tester M, et al. Breeding crops to feed 10 billion. Nat Biotechnol 2019;37(7):744‒54. . 10.1038/s41587-019-0152-9

[51]

Yang W, Feng H, Zhang X, Zhang J, Doonan JH, Batchelor WD, et al. Crop phenomics and high-throughput phenotyping: past decades, current challenges, and future perspectives. Mol Plant 2020;13(2):187‒214. . 10.1016/j.molp.2020.01.008

[52]

Liu HJ, Yan J. Crop genome-wide association study: a harvest of biological relevance. Plant J 2019;97(1):8‒18. . 10.1111/tpj.14139

[53]

Xu Y, Xu C, Xu S. Prediction and association mapping of agronomic traits in maize using multiple omic data. Heredity 2017;119(3):174‒84. . 10.1038/hdy.2017.27

[54]

Xu Y, Liu X, Fu J, Wang H, Wang J, Huang C, et al. Enhancing genetic gain through genomic selection: from livestock to plants. Plant Commun 2020;1(1):100005. . 10.1016/j.xplc.2019.100005

[55]

Harfouche AL, Jacobson DA, Kainer D, Romero JC, Harfouche AH, Scarascia Mugnozza G, et al. Accelerating climate resilient plant breeding by applying next-generation artificial intelligence. Trends Biotechnol 2019;37(11):1217‒35. . 10.1016/j.tibtech.2019.05.007

[56]

Zheng HG, Zhao JJ, Qin XJ, Jia Q, Qi S. Overview of the global crop seed industry and strategic thinking on its development in China. Strategic Study of CAE 2021;23(4):45‒55. Chinese. . 10.15302/j-sscae-2021.04.022

[57]

Araus JL, Kefauver SC, Zaman-Allah M, Olsen MS, Cairns JE. Translating high-throughput phenotyping into genetic gain. Trends Plant Sci 2018;23(5):451‒66. . 10.1016/j.tplants.2018.02.001

[58]

Jiang Y, Li C. Convolutional neural networks for image-based high-throughput plant phenotyping: a review. Plant Phenomics 2020;2020:4152816. . 10.34133/2020/4152816

[59]

Tardieu F, Cabrera-Bosquet L, Pridmore T, Bennett M. Plant phenomics, from sensors to knowledge. Curr Biol 2017;27(15):R770‒83. . 10.1016/j.cub.2017.05.055

[60]

Wang X, Xuan H, Evers B, Shrestha S, Pless R, Poland J. High-throughput phenotyping with deep learning gives insight into the genetic architecture of flowering time in wheat. Gigascience 2019;8(11):giz120. . 10.1093/gigascience/giz120

[61]

Furbank RT, Jimenez-Berni JA, George-Jaeggli B, Potgieter AB, Deery DM. Field crop phenomics: enabling breeding for radiation use efficiency and biomass in cereal crops. New Phytol 2019;223(4):1714‒27. . 10.1111/nph.15817

[62]

Zhang Y, Wang J, Du J, Zhao Y, Lu X, Wen W, et al. Dissecting the phenotypic components and genetic architecture of maize stem vascular bundles using high-throughput phenotypic analysis. Plant Biotechnol J 2021;19(1):35‒50. . 10.1111/pbi.13437

[63]

Hammer G, Messina C, Wu A, Cooper M. Biological reality and parsimony in crop models—why we need both in crop improvement! in silico Plants 2019;1(1):diz010. . 10.1093/insilicoplants/diz010

[64]

Nerkar G, Devarumath S, Purankar M, Kumar A, Valarmathi R, Devarumath R, et al. Advances in crop breeding through precision genome editing. Front Genet 2022;13:880195. . 10.3389/fgene.2022.880195

[65]

Peng B, Guan K, Tang J, Ainsworth EA, Asseng S, Bernacchi CJ, et al. Towards a multiscale crop modelling framework for climate change adaptation assessment. Nat Plants 2020;6(4):338‒48. . 10.1038/s41477-020-0625-3

[66]

Varshney RK, Sinha P, Singh VK, Kumar A, Zhang Q, Bennetzen JL. 5Gs for crop genetic improvement. Curr Opin Plant Biol 2020;56:190‒6. . 10.1016/j.pbi.2019.12.004

[67]

Bailey-Serres J, Parker JE, Ainsworth EA, Oldroyd GED, Schroeder JI. Genetic strategies for improving crop yields. Nature 2019;575(7781):109‒18. . 10.1038/s41586-019-1679-0

AI Summary AI Mindmap
PDF (4660KB)

10436

访问

0

被引

详细

导航
相关文章

AI思维导图

/