
期刊论文 93


2023 12

2022 17

2021 18

2020 5

2019 4

2018 9

2017 9

2016 4

2015 2

2012 1

2007 5

2006 2

2004 1

2003 1

2002 1

2001 1

1999 1

展开 ︾


人工智能 3

计算机视觉 3

神经假体 2

跟踪 2

DPP);分布式功率转换器;开关电容转换器 1

Hilare 机器人 1

MPPT);差分功率处理(Differential power processing 1



Vidar相机 1

k-最近邻分类 1

三维视觉知识;三维参数模型;心脏病理诊断;数据增强 1

三维过程;三元数;最小均方;卡尔曼滤波器 1

主动视觉 1

主成分分析 1

主观意图 1

二分追踪;多智能体系统;异步脉冲;一致性 1

人-机协同;混合增强智能;认知计算;直觉推理;因果模型;认知映射;视觉场景理解;自主驾驶汽车 1

展开 ︾


排序: 展示方式:

基于定量属性的单目标视觉跟踪算法评价体系研究 Article

Wen-jing KANG, Chang LIU, Gong-liang LIU

《信息与电子工程前沿(英文)》 2020年 第21卷 第3期   页码 405-421 doi: 10.1631/FITEE.1900245

摘要: 视觉跟踪是计算机视觉领域热门研究课题之一。近年来,很多先进跟踪算法和性能评价基准相继发布,并取得巨大成功。现有评价体系大多定位于衡量整体性能,无法通过针对性的详细论证评估跟踪器的优势和缺点,且很多常用评测指标缺乏令人信服的含义解释。本文从测试数据、测试方法、测试指标3方面深入分析跟踪评价体系的细节。首先,归纳整理了12个反映图像序列不同特性的帧间视觉属性,并首次定量给出其归一化公式。基于这些属性定义,提出两种新的测试方法,即基于相关性的测试和基于权重的测试,使评价体系能更直观、更清晰地评定跟踪器各方面性能。测试结果表明,在目标尺寸快速或剧烈变化时,跟踪器大多表现不佳,即使基于深度学习的先进跟踪器也未能很好解决这一问题。

关键词: 视觉跟踪;性能评价;视觉属性;计算机视觉    

相关滤波视觉跟踪方法中深度上下文模型的研究 Article

Zhao-yun CHEN, Lei LUO, Da-fei HUANG, Mei WEN, Chun-yuan ZHANG

《信息与电子工程前沿(英文)》 2017年 第18卷 第5期   页码 667-679 doi: 10.1631/FITEE.1500389

摘要: 近来,基于相关滤波器的跟踪器因具有较高的计算效率而颇受关注,但这一方法不能很好地处理遮挡和尺度变化。本文旨在将深度信息整合到基于相关滤波器的跟踪器中,以解决跟踪器在上述两种情况下的跟踪失败。此外,本文采用了区域生长法使跟踪器对遮挡和尺度变化的场景具有更高鲁棒性,并利用模型更新等优化方法来改进较长视频序列的性能。通过对极具挑战性的基准图像序列测试集的定性和定量评估,本文提出的跟踪器比最先进的算法具有更好的性能。

关键词: 视觉跟踪;深度上下文模型;相关滤波;区域生长    

Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article

Oguzhan Dogru, Kirubakaran Velswamy, 黄彪

《工程(英文)》 2021年 第7卷 第9期   页码 1248-1261 doi: 10.1016/j.eng.2021.04.027


本文通过将对象跟踪形式化为序列决策过程,使控制理论与计算机视觉实现同步。强化学习(RL)智能体成功跟踪了两种液体之间的界面,这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100 张图像来创建环境,智能体无需专家知识即可从中生成自己的数据。该方法展示了RL方法在油砂行业中的实时对象跟踪应用。本文除了介绍界面跟踪问题外,还详细回顾了最有效的RL方法之一——actor-critic策略。

关键词: 界面跟踪     对象跟踪     遮挡     强化学习     均匀流形逼近和投影    

视觉知识的五个基本问题 Perspectives


《信息与电子工程前沿(英文)》 2021年 第22卷 第5期   页码 615-766 doi: 10.1631/FITEE.2040000

摘要: 认知心理学早已指出,人类知识记忆中的重要部分是视觉知识,被用来进行形象思维。因此,基于视觉的人工智能(AI)是AI绕不开的课题,且具有重要意义。本文继《论视觉知识》一文,讨论与之相关的5个基本问题:(1)视觉知识表达;(2)视觉识别;(3)视觉形象思维模拟;(4)视觉知识的学习;(5)多重知识表达。视觉知识的独特优点是具有形象的综合生成能力,时空演化能力和形象显示能力。这些正是字符知识和深度神经网络所缺乏的。AI与计算机辅助设计/图形学/视觉的技术联合将在创造、预测和人机融合等方面对AI新发展提供重要的基础动力。视觉知识和多重知识表达的研究是发展新的视觉智能的关键,也是促进AI 2.0取得重要突破的关键理论与技术。这是一块荒芜、寒湿而肥沃的“北大荒”,也是一块充满希望值得多学科合作勇探的“无人区”。

关键词: 视觉知识表达;视觉识别;视觉形象思维模拟;视觉知识学习;多重知识表达    

面向视觉概念构建的三维形状空间学习:挑战与研究进展 Perspective


《信息与电子工程前沿(英文)》 2022年 第23卷 第9期   页码 1290-1297 doi: 10.1631/FITEE.2200318

摘要: 人类可以熟练的对真实世界中物体按照形状或者功能进行分类,并在思维中建立每类物体的视觉概念和周围真实世界的视觉知识(Pan, 2019)。Pan(2021)指出建立这些视觉概念和视觉知识的计算表达是发展下一代人工智能的一个关键步骤。学习同一视觉概念下所有物体的三维形状空间是实现视觉概念计算表达的一个关键步骤。

关键词: 视觉概念;视觉知识;三维几何学习;三维形状空间;三维结构    

面向视觉常识推理的有向视觉连接 Research Articles


《信息与电子工程前沿(英文)》 2021年 第22卷 第5期   页码 615-766 doi: 10.1631/FITEE.2000722

摘要: 为推动认知层面视觉内容理解的研究,即基于视觉细节的深入理解做出精确推理,视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答,视觉常识推理不仅需要模型正确地回答问题,还需给出相应解释。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接,以及借助方向信息增强推理能力,所提方法能有效实现视觉常识推理。具体地,首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。

关键词: 视觉常识推理;有向连接网络;视觉神经元连接;情景化连接;有向连接    

视觉知识:智能创意初探 Perspectives


《信息与电子工程前沿(英文)》 2021年 第22卷 第5期   页码 615-766 doi: 10.1631/FITEE.2100116

摘要: 首先,列举形象思维推理的相关研究;然后,重点介绍一种特殊的视觉知识表示形式,即视觉场景图;最后,详细介绍视觉场景图构造问题与潜在应用。所有证据表明,视觉知识和视觉思维不仅可以改善当前人工智能任务的性能,而且可以用于机器创造力的实践。

关键词: 思维科学;形象思维推理;视觉知识表达;视觉场景图    



《中国工程科学》 1999年 第1卷 第1期   页码 49-52



关键词: 主动视觉     被动视觉     检测系统     现代制造    

一种跟踪性能不占优的多无人机协同目标跟踪方法 Research Articles


《信息与电子工程前沿(英文)》 2021年 第22卷 第10期   页码 1334-1350 doi: 10.1631/FITEE.2000362

摘要: 目标跟踪是无人机领域研究热点之一。本文针对无人机跟踪性能不占优,以及目标具有灵活、智能运动特征的情形,研究了多无人机协同目标跟踪问题。提出一种基于目标意图估计的多无人机协同跟踪策略。首先设计了一种具有降维和最大感知覆盖约束的轨迹特征提取方法,以降低无人机跟踪代价,并对目标典型的3类运动模式,根据环境和目标轨迹主要特征,设计了一种意图估计方法;然后,设计了一种在障碍物环境中基于最小可达距离和最小转角代价的MDA-Voronoi图,证明分析了目标被感知的概率;接着,设计了无人机的协同跟踪策略,以减小目标跟踪丢失的间隙,增加目标被感知的时间;通过纳什Q学习方法,在奖励函数中考虑了避障、跟踪代价、感知质量、飞行约束等因素最后,通过仿真验证了本文方法能在无人机跟踪性能不占优的情况下提高跟踪质量。

关键词: 协同跟踪;意图估计;MDA-Voronoi图;多无人机;性能不占优    

视觉知识 Perspective

Yun-he PAN

《信息与电子工程前沿(英文)》 2019年 第20卷 第8期   页码 1021-1025 doi: 10.1631/FITEE.1910001

摘要: 提出“视觉知识”概念。视觉知识是知识表达的一种新形式. 它与迄今为止人工智能(AI)所用知识表达方法不同. 其中视觉概念具有典型(prototype)与范畴结构、层次结构与动作结构等要素.视觉概念能构成视觉命题,包括场景结构与动态结构,视觉命题能构成视觉叙事。指出重构计算机图形学成果可实现视觉知识表达及其推理与操作,重构计算机视觉成果可实现视觉知识学习。实现视觉知识表达、推理、学习和应用技术将是AI 2.0取得突破的重要方向之一。

关键词: None    

室内导航系统视觉标记性能分析 Article

Gaetano C. LA DELFA,Salvatore MONTELEONE,Vincenzo CATANIA,Juan F. DE PAZ,Javier BAJO

《信息与电子工程前沿(英文)》 2016年 第17卷 第8期   页码 730-740 doi: 10.1631/FITEE.1500324

摘要: 近年来,得益于智能手机相机性能的大幅提升,无标记点和有标记点的计算机视觉方法得到开发。在之前的研究中,我们提出了一种利用低功耗蓝牙和嵌入地面的2D视觉标记系统进行室内定位导航的技术。在本文中,我们对3种可服务于实时应用的2D视觉标记(Vuforia,ArUco标记和AprilTag)进行了定性的性能评估。本文重点研究了附于地表瓷砖的3种视觉标记在特定情况下的表现,提出了最优视觉标记的甄选原则,为我们提出的室内定位导航技术提供技术支撑。

关键词: 室内定位;视觉标记;计算机视觉    

户外空中双机械手抓取设计和视觉伺服 Article

Pablo Ramon-Soria, Begoña C. Arrue, Anibal Ollero

《工程(英文)》 2020年 第6卷 第1期   页码 77-88 doi: 10.1016/j.eng.2019.11.003


本文介绍了一种配备有RGB-D摄像机的使用带有双机械手的无人飞行器(unmanned aerial vehicle, UAV)抓取已知物体的系统。空中操纵仍然是一项极具挑战性的任务。本文主要从三个方面对这一任务进行了评价:目标检测与姿态估计、抓取设计、飞行中的抓取动作。人工神经网络(artificial neural network, ANN)首先被用来获得有关物体位置的线索。接下来,使用对齐算法获取对象的六维(six-dimensional, 6D)姿态,并使用扩展的卡尔曼滤波器进行滤波。然后,使用物体的三维(three-dimensional, 3D)模型来估计空中机械手可实现良好抓取的排列清单。检测算法的结果(即对象的姿态)用于更新手臂朝向对象的轨迹。如果由于无人机的振荡而无法达到目标姿态,则算法将切换到下一个可行的抓取。本文介绍了总体方法,给出了每个模块的仿真实验结果和实际实验结果,并提供了视频演示结果。

关键词: 空中操纵,抓取设计,视觉伺服    

视觉假体:技术和社会经济挑战 Perspective

John B. Troy

《工程(英文)》 2015年 第1卷 第3期   页码 288-291 doi: 10.15302/J-ENG-2015080


视觉假体目前已经进入临床市场。最初,视觉假体用来治疗因视网膜色素变性(RP) 导致失明的患者。2015年7月下旬, 视网膜假体首次用于治疗干性年龄相关性黄斑变性。而对视网膜输出功能完全丧失的眼部疾病,则需要植入与视觉中枢进行接口的假体类型。目前正在研发的中枢视觉假体的代表是视皮层假体。本文探讨了视觉假体所面临的技术方面和社会经济方面的挑战。

关键词: 神经假体     视觉     眼部疾病     功能恢复     康复    

视觉理解 Perspective


《信息与电子工程前沿(英文)》 2022年 第23卷 第9期   页码 1287-1289 doi: 10.1631/FITEE.2130000

摘要: 1 Problems and development in the field of visual recognition From the beginning of artificial intelligence (AI), pattern recognition has been an important aspect of the field. In recent years, the maturity of deep neural networks (DNNs) has significantly improved the accuracy of visual recognition. DNN has been widely used in applications such as medical image classification, vehicle identification, and facial recognition, and has thus promoted the development of the AI industry to a climax. However, there are currently critical defects in visual recognition based on DNN technology. For example, these networks usually require a very large amount of labeled training data, and have weak cross-domain transferability and task generalization. Their learning and reasoning processes are still hard to understand, which leads to unexplainable predictions. These challenges present an obstacle to the development of AI research and application. If we look at the current visual recognition technology from a larger and broader perspective, we can find that the above defects are fundamental, because the currently used DNN model needs to be trained with a large amount of labeled visual data, and then used in the process of visual recognition. In essence, it is a classification process based on data statistics and pattern matching (), so it is heavily dependent on training sample distribution. However, to have interpretability and transferability, visual classification is not good enough, while visual understanding becomes indispensable. 2 Three-step model of visual understanding Visual recognition is not equivalent to visual understanding. We propose that there are three steps in visual understanding, of which classification is only the first. After classification, one proceeds to the second step: visual parsing. In the process of visual parsing, the components of the visual object and their structural relationship are further identified and compared. Identification involves finding components and structures in visual data that correspond to the components and structures of known visual concepts. Parsing verifies the correctness of the classification results and establishes the structure of visual object data. After completing visual parsing, one proceeds to the third step: visual simulation. In this step, predictive motion simulation and operations including causal reasoning are carried out on the structure of the visual objects to judge the rationality of meeting physical constraints in reality, so as to verify the previous recognition and parsing results. We can take a picture of a cat as an example to illustrate the modeling process of visual understanding. The process is as follows: 1. Recognition: It is a cat. Extract the visual concept of the cat and proceed to the next step; otherwise, stop here. 2. Parsing: Based on the structure contained in the visual concept, identify whether the cat’s head, body, feet, tail, and their relationships are suitable for the cat concept. If not, return to step 1 for re-identification; if yes, proceed to the next step. 3. Simulation: Simulate various activities of the cat to investigate whether the cat’s activities in various environments can be completed reasonably. If not, return to step 2; if yes, proceed to the next step. 4. End visual understanding: Incorporate the processed structured data into the knowledge about cats. 3 Characteristics of the three-step visual understanding model To further understand the above-mentioned three-step visual understanding model, we will further discuss some of its characteristics: 1. The key step in visual understanding is visual parsing. This is an identification of the components contained in the object according to a conceptual structure based on the visual concept (), obtained by visual recognition. Parsing a visual object, in order from top to bottom, is a process of identifying and constructing visual data from the root of the concept tree to the branches and leaves. 2. Human visual parsing tasks are often aimed only at the main components of concepts. The main components have existing, commonly used names. For subsidiary parts that have not been described in language, such as the area between the cheekbones and chin of the face, only experts specialized in anatomy (such as doctors or artists) have professional concepts and memories. Therefore, visual parsing is a cross-media () process that incorporates multiple knowledge () including vision and language. 3. Visual knowledge () is essential for visual parsing and visual simulation, because the visual concept structure provides a reliable source for component identification and comparison. Parents and teachers play a large role in establishing visual knowledge. When they say to a child, “Look, this is a kitten. Kittens have pointed ears, round eyes, long whiskers, and four short legs. When they run fast and leap high, they can catch a mouse,” they are guiding children in constructing basic visual knowledge in their long-term memory. 4. Visual data that have been understood have actually been structured to form visual knowledge. Such visual knowledge can easily be incorporated into long-term memory. For example, when one sees a cat whose head is very small, or whose fur color and markings are unusual, or who has a particular gait, this information may be included in one’s “cat” memory by expanding the concept of “cat” (). The category of visual concepts is very important, and its extent reflects the general degree of knowledge. In fact, it is not always useful to collect a large amount of sample data to train a DNN model. However, the more widely distributed and balanced the data are within a concept category, the better, because the robustness and generalization ability of the model trained based on such sample data are stronger. 5. The learned visual information can naturally be explained, because it has deep structural cognition; it can also be used for transfer learning because the semantic concepts have cross-media relevance. This semantic information can clearly indicate the reasonable direction of transferable recognition. 4 Advancing visual recognition to visual understanding Visual understanding is important, because it can potentially work with visual knowledge () and multiple knowledge representation () to open a new door to AI research. Visual understanding involves not only in-depth visual recognition, but also thorough learning and application of visual knowledge (). AI researchers have been studying visual recognition for more than half a century. Speech recognition, a research task started in parallel with visual recognition, moved on to analysis of words, sentences, and paragraphs quite early, and has successfully developed human-computer dialogue and machine translation, setting a well-known milestone. Therefore, we suggest that it is necessary to advance visual recognition to visual understanding, and that this is an appropriate time to target this deeper visual intelligence behavior.



《中国工程科学》 2007年 第9卷 第5期   页码 57-61

摘要: 报告了由知觉、思维、运动3个处理器和短期记忆、工作记忆和长期记忆构成的研究用计算机实现 人的信息处理模型;把人的信息处理模型安装在一台PC机上,模拟生产操作人员监视锅炉厂模拟机计算机屏幕 的过程表明,视觉信息处理过程取决于画面因素

关键词: 人的信息处理模型     知觉处理器     视觉信息处理     心理状态     人为操作失误    

标题 作者 时间 类型 操作


Wen-jing KANG, Chang LIU, Gong-liang LIU



Zhao-yun CHEN, Lei LUO, Da-fei HUANG, Mei WEN, Chun-yuan ZHANG



Oguzhan Dogru, Kirubakaran Velswamy, 黄彪





















Yun-he PAN



Gaetano C. LA DELFA,Salvatore MONTELEONE,Vincenzo CATANIA,Juan F. DE PAZ,Javier BAJO



Pablo Ramon-Soria, Begoña C. Arrue, Anibal Ollero



John B. Troy






