未来数据系统的逻辑与架构

李静海 ,  郭力

Engineering ›› 2025, Vol. 47 ›› Issue (4) : 17 -19.

PDF (1363KB)
Engineering ›› 2025, Vol. 47 ›› Issue (4) : 17 -19. DOI: 10.1016/j.eng.2025.02.006
新闻热点

未来数据系统的逻辑与架构

作者信息 +

The Logic and Architecture of Future Data Systems

Author information +
文章历史 +
PDF (1394K)

引用本文

引用格式 ▾
李静海,郭力. 未来数据系统的逻辑与架构[J]. 工程(英文), 2025, 47(4): 17-19 DOI:10.1016/j.eng.2025.02.006

登录浏览全文

4963

注册一个新账户 忘记密码

本文展望了数据科学的未来发展,强调了其对人工智能的重要性。文中首先探讨了数据科学当前所面临的挑战。接着,通过阐释与多层次复杂性相关的数据逻辑和原则,提出了应对这些挑战的策略。文中最后简要概述了迫切需要采取的行动。

1 科学数据系统面临的挑战

科学数据系统在科学技术发展中的重要性日益显著,受到了学术界和工业界的广泛关注。近年来,数据已成为人工智能迅猛发展的核心驱动力之一,它贯穿于人工智能模型的开发、训练、评估和优化等各个环节。数据质量对于构建高效、可靠、适用的人工智能系统至为关键。因此,人们愈发期望数据在未来能够充分发挥其基础性作用,特别是在能够精准、完整地表达人类对复杂世界的认知方面。

事实上,由于科学数据主要源自对多层次复杂时空动态过程的长期研究积累,而人类对这些复杂时空动态结构的认知尚不全面,这就导致在数据的积累、建模、应用过程中面临诸多尚未被充分关注的挑战性问题。厘清这些问题对于未来数据科学的健康可持续发展极为关键,同时也对所有学科领域的相关科学研究提出了新的要求,亟待我们高度关注并认真对待。

以目前的图像识别应用为例,图像数据本身具有丰富的层次结构,自底向上依次是像素、边缘、纹理、部件、整体对象,每一层都承载着不同尺度的特征信息,这种内在的层次结构为建立图像识别的人工智能模型提供了天然框架。基于卷积神经网络[1]的图像识别正是按照这一顺序,从下向上逐层归纳与识别,最终得到结果[2]。

由此可见,科学数据的采集与组织应关注其内在逻辑。进一步而言,如果科学数据系统的逻辑和架构能够反映研究对象的内在特征、结构、行为和功能关系,就有利于构建具有更高准确性、鲁棒性和可解释性的人工智能模型。反之,若用于处理科学数据的模型、软件以及相应硬件资源的逻辑和架构与数据本身不相匹配,将不可避免地导致模型预测偏差大、模型泛化能力差、因果关系挖掘困难、建模计算量攀升、训练数据量增多以及模型可解释性减弱等问题。这正是当前人工智能亟待攻克的挑战性难题。

这一挑战不仅关乎人工智能与数据科学的长远发展,也是科学研究中一个易被忽视的重要方面。例如,对于同一现象,不同研究者所获取的数据经常存在差异,这可能是由于层次划分错误或缺失导致的。更为严重的是,对于复杂时空结构,人们往往倾向于进行平均化处理,因而忽视了其中最为关键的实质性内涵;比如,系统、层次、尺度之间的关系是什么?数据问题已经成为转变科研范式、应对重大挑战和填补知识体系缺失的实质性难题之一[3]。

2 科学数据收集和处理应遵循的原则

近年来,我们在复杂性原理的研究上,特别是在探索复杂性和多样性的共性原理方面取得了一些进展,提出了介科学的概念和方法[4],并在不同系统中得到了应用。我们认为,系统的复杂性通常表现为多层次的复杂结构,并且每一层次呈现多尺度(单元尺度、介尺度和系统尺度)的特征,复杂性总是出现在介于单元尺度和系统尺度中间的介尺度的介区域上。复杂系统可能由至少两种控制机制所支配,控制机制之间的竞争中的协调(CIC)是系统复杂性的起源。

针对前面提出的数据问题,考虑到复杂系统的多层次特征以及每个层次构成了一个既与相邻层次相互作用、又相对独立的多尺度子系统的属性[4],未来的数据收集和系统化处理在满足现有常规数据规范要求的同时,还应特别遵循以下原则:

• 在收集数据时,务必明确其可能具有的多层次特征,并精准识别和定义所收集数据的具体层次,避免不同层次数据的混淆和错位;

• 明确每个层次数据的时空结构特征,辨识每一层次内及相邻层次间相互作用的关键变量,以确保数据的完整性和可靠性;

• 对于特定层次,考虑到其边界和操作条件(包括层次之间的相互作用)的变化,可能存在多种操作区域,因此须清晰表达这些不同区域之间过渡或突变的临界条件;

• 对于那些因当前认知手段限制而暂时无法获取的各层次上的动态结构数据,应当加以详细标注,预留完善空间,并提示用户予以持续关注。

上面这些原则只提供了一个大致的框架,并未覆盖数据系统全部内容。另外,考虑到不同学科和领域的共性和多样性,为实用起见,还需要制定一个更为详细的实施指南。

在这个框架下,人工智能模型的逻辑也应该被重构为多层次结构。以大型语言模型(LLM)[56]为例,当前的Transformer架构[7]将文本视为一系列token的时序数据进行处理,聚焦于token间的注意力。然而,人类可理解的文本数据通常具有自己的内在逻辑和结构,以单词作为最基本的单元,从下至上构建出句子、段落、章节,直至整个文档。文本的结构和叙事逻辑明显呈现出如前所述的多层次特性,同一层次的单元之间存在语义上的时序关系,下一层次构成上一层次的单元,并且不同层次之间也存在语义的关联。若在构建LLM时集成这些结构和逻辑,将能更有效地捕捉更为丰富和深层的语义信息以及文本的内在逻辑,这将有助于提升LLM的文本理解、语句生成、逻辑推理等能力。

3 应当充分重视对数据系统逻辑与架构的研究

目前的数据收集和处理过程中普遍未将上述因素纳入考量,或者考虑不够全面,这制约了数据系统乃至人工智能的持续发展。实际上,当前人工智能在那些数据架构定义较为清晰的领域取得了相对成功的应用,但在层次和结构不够明确的领域,尤其在涉及多层次过程的工程领域,其成效往往不尽如人意。这从另一个侧面更清晰地凸显了数据系统逻辑与架构的重要性。

因此,对数据系统逻辑与架构的研究应当引起各方面的充分重视。未来我们需要在数据系统逻辑与架构方面进行持续的创新和探索,待时机成熟时,建立一个全球性的分层次结构化的数据标准协议框架并随后发布操作指南,以彻底解决这一问题。唯有如此,才能对生成和收集数据的科研工作提出明确的要求,确保高质量数据生态系统的逐渐形成,促进人工智能的健康发展和高效应用。

进一步而言,将“多层次、多尺度、控制机制之间的竞争中协调导致介尺度复杂性”的原理应用到数据采集、分析和建模的过程中,对数据科学和人工智能的发展均十分必要[8]。

综上所述,在新范式下的科研活动中,对数据的收集、组织和人工智能分析应当特别关注所研究复杂系统的多层次结构,严格遵循“数据的行为和功能关系与研究对象使用相同逻辑和架构”的原则,这对跨学科研究提出了更高的要求。我们不应受限于长期形成的学科分隔的惯性思维,而应积极地逐步融入科研范式变革的进程,将各学科和领域对数据系统逻辑与架构的共性要求——也就是知识体系的逻辑和架构——贯穿于整个科研过程和数据产品之中,以应对人工智能时代的新挑战。在当代科学中,我们不应忽视将不合逻辑的数据错误地纳入科学数据系统的问题,这是全球科学共同体应当充分重视并尽快采取行动的议题。

参考文献

[1]

LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proc IEEE 1998;86(11):2278‒324. . 10.1109/5.726791

[2]

Zeiler MD, Fergus R. Visualizing and understanding convolutional networks. In: Fleet D, Pajdla T, Schiele B, Tuytelaars T, editors. Computer vision—ECCV 2014. Cham: Springer; 2014. p. 818‒33. . 10.1007/978-3-319-10590-1_53

[3]

Li J. Exploring the logic and landscape of the knowledge system: multilevel structures, each multiscaled with complexity at the mesoscale. Engineering 2016;2(3):276‒85. . 10.1016/j.eng.2016.03.001

[4]

Li J. The principle of compromise-in-competition: understanding mesoscale complexity of different levels. Proc R Soc Lond A 2024;480(2301):20240031. . 10.1098/rspa.2024.0031

[5]

Devlin J, Chang MW, Lee K, Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies; 2019 Jun 2‒7; Minneapolis, MN, USA; 2019.

[6]

Radford A, Narasimhan K, Salimans T, Sutskever I. Improving language understanding by generative pre-training. San Francisco: OpenAI; 2018.

[7]

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is all you need. Adv Neural Inf Process Syst 2017;30:5998‒6008.

[8]

Guo L, Wu J, Li J. Complexity at mesoscales: a common challenge in developing artificial intelligence. Engineering 2019;5(5):924‒9. . 10.1016/j.eng.2019.08.005

AI Summary AI Mindmap
PDF (1363KB)

1665

访问

0

被引

详细

导航
相关文章

AI思维导图

/