新型机器视觉更节能也更接近人类地形神经网络形成类似人类的空间认知偏差

过去十年间,人工智能视觉模型取得了显著进步。然而这些成果催生的神经网络虽然高效,却与人类视觉特征大相径庭。例如, 卷积神经网络 (CNN)更擅长识别纹理,而人类对形状更为敏感。
近期发表于 《自然·人类行为》 的论文部分填补了这一空白。该研究提出了一种新型全地形神经网络(All-TNN),在自然图像训练中形成了更接近人类视觉的有机化专业结构。这种 All-TNN 能更好模拟人类的空间认知偏好(比如预期飞机出现在图像顶部而非底部),其能耗也远低于其他用于机器视觉的神经网络。
“当你观察大脑中知识组织方式时,会发现它与深度神经网络(如卷积神经网络)的排序方式存在根本性差异,” 蒂姆·C·基茨曼表示。这位德国奥斯纳布吕克认知科学研究所教授是该论文的共同指导者。
全地形神经网络展现出类人空间认知偏好
当前大多数机器视觉系统(包括谷歌相册和 Snapchat 等应用中的技术)都采用某种形式的卷积神经网络。CNN 通过跨空间位置复制相同的特征检测器 (即"权重共享"机制),最终形成的网络在映射时呈现紧密重复的分形图案结构。
全拓扑神经网络的结构则截然不同。它的网络呈现平滑状态,相关神经元聚集成簇但从不重复。描绘全拓扑神经网络空间关系的图像看起来像丘陵地带的等高线图,或是显微镜下观察到的微生物群落。
这种视觉差异不仅仅是漂亮图片的对比。基茨曼指出,卷积神经网络采用的权重共享机制从根本上背离了生物大脑的工作原理。"大脑无法将某个位置学到的知识复制到其他位置,"他解释道,"而卷积神经网络可以做到。这只是提升学习效率的工程技巧。"
全拓扑神经网络通过完全不同的架构和训练方法规避了这一特性。
研究人员没有采用权重共享,而是为网络中的每个空间位置配置了独立可学习的参数集。为了防止由此产生混乱无序的特征,他们在训练过程中添加了"平滑性约束",促使相邻神经元学习相似(但绝不雷同)的特征。
为验证这一特性能否使机器视觉呈现更接近人类的行为,研究人员邀请 30 名人类受试者辨识在不同屏幕位置短暂闪现的物体。尽管 ALL-TNN 仍非人类视觉的完美模拟,但其与人类视觉的相关性被证实是 CNN 网络的三倍。
Zejin Lu 作为论文合著者表示,全地形神经网络的改进与人类视觉的相关性源于该网络如何学习空间关系。"对人类而言,当你识别某些物体时,它们具有典型位置。你早就知道鞋子通常位于底部地面,而飞机则在上方,"他解释道。
研究全地形神经网络的团队成员推测,他们的方法将使机器视觉更接近人类视觉。西蒙娜·罗伊考夫
类人行为并不意味着性能更优,但确实能降低能耗
All-TNN 网络与人类视觉之间更强的相关性表明,机器可以被教导以更接近人类的方式观察世界,但这并不必然会产生一个更擅长图像分类的网络。
CNN 以 43.2%的准确率保持图像分类领域的王者地位。而全地形神经网络(All-TNN)的分类准确率在 34.5%至 36%之间浮动,具体数值取决于网络配置。
虽然精度有所欠缺,但它在效率上获得了优势。全地形神经网络(All-TNN)的能耗显著低于测试的卷积神经网络(CNN),后者运行时能耗超过前者的十倍。值得注意的是,这一成果是在全地形神经网络的规模约为测试 CNN 的 13 倍情况下实现的(全地形神经网络参数约 1.07 亿个,而 CNN 仅约 800 万个)。
全地形神经网络的效率得益于其新颖的网络结构。尽管整体规模更大,但该网络能聚焦图像最关键部分,而非均匀处理所有内容。"你拥有大量可能响应的不同神经元,但实际只有一小部分会被激活,"基茨曼解释道。
