革命性KAN 2.0横空出世,剑指AI科学大一统!MIT原班人马再出神作
4月30日,KAN横空出世,很多人预言这会敲响MLP的丧钟。
没想到,子弹还没飞4个月,核心团队又推出了KAN 2.0,瞄准AI+Science领域,进一步挖掘了KAN的潜力。
这篇论文更雄心勃勃的地方在于,作者希望通过一种框架来弥合AI世界的连接主义(connectionism)和科学世界的符号主义(symbolism)之间的不相容性。
通过提出pykan等工具,作者还展现了KAN发现各种物理定律的能力,包括守恒量、拉格朗日量、隐藏对称性和本构方程等等。
论文地址:https://arxiv.org/abs/2408.10205
这次KAN 2.0依旧出自初代架构原班人马之手。
深度学习变天了,MLP成过去式?
我们先简要回顾一下,今年4月首次提出的KAN究竟在哪些方面改进了MLP。
MLP(multi-layer perceptron)又被称为全连接神经网络,是当今几乎所有深度学习模型的基础构建块,它的出世甚至可以追溯到第一波人工智能浪潮方兴未艾的1958年。
论文地址:https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf
KAN的论文中都表示,MLP的重要性怎么强调都不为过,因为这是神经网络中用于逼近非线性函数的默认模型,其对函数表达能力的底层逻辑由「通用逼近定理」保证。
Transformer和其他架构中常见的FFN本质上就是一个MLP。但由于网络稠密、参数量大,MLP往往占据了模型中几乎所有的非编码层参数。
而且相比注意力层,在没有后期分析工具时,MLP中的大量参数也缺乏可解释性。
受到Kolmogorov-Arnold表示定理的启发,KAN打破了对通用逼近定理的遵循。
虽然底层逻辑变了,但是他们做出的修改相当简洁且直观:
- 将激活函数放在网络边缘而非节点处
- 给激活函数赋予可学习参数,而非固定的函数
KAN中没有任何线性权重,网络中的每个权重都变成了B-spline型单变量函数的可学习参数。
这种看似简单的改变让KAN获得了拟合准确性和可解释性方面的优势。今年4月的第一篇论文中,作者们就发现KAN在数学和物理定律方面的潜力。
下面这个动图展示了简单的3层KAN网络拟合一个复杂函数的训练过程,相当简洁清楚。
此外,KAN也能从根本上很好地解决MLP中普遍存在的「灾难性遗忘」问题。
以上这些优势,都奠定了KAN作为「科学家合作助手」的基本能力。
KAN2.0问世,一统AI+科学
虽然第一版的KAN网络本身有很多适合科学研究的优点,但深度学习和物理、化学、生物学领域依旧有完全不同的「语言」,这构成了AI4Science最大的障碍之一。
因此扩展后的KAN 2.0的终极目标只有一个——使KAN能轻松应用于「好奇心驱动的科学」。研究人员既能将辅助变量、模块化结构、符号公式等科学知识集成到KAN中,也能从KAN的可解释性分析中得到观察和见解。
所谓「好奇心驱动的科学」,根据论文的解释,是过程更具有探索性、提供更基础层面新发现和新知识的研究,比如天体运动背后的物理原理,而非AlphaFold这类应用驱动的科学研究。
科学与KAN的协同
具体来说,科学解释有不同的层次,从最简单粗略到最精细、最难发现、最具因果性,可以有如下几个分类:
- 重要特征:例如,y完全由x1和x2决定,其他因素并不重要;即存在一个函数f使得y=f(x1, x2)
- 模块化结构:例如,存在函数g和h是的y=g(x1)+h(x2)
- 符号公式:例如,y=sin(x1)+exp(x2)
MultKAN
在原始KAN网络的基础上,这篇最新的论文引入了一种称为MultKAN的新模型,其核心改进是引入额外的乘法层进行增强。
KAN所依据的Kolmogorov-Arnold表示定理提出,任何连续高维函数都可以分解为单变量连续函数和加法的有限组合:
这意味着加法是唯一真正的多元运算,而其他多元运算(包括乘法)都可以表示为与单变量函数组合的加法。因此,原来的KAN中仅包含加法运算。
然而,考虑到乘法在科学和日常生活中的普遍存在,MultKAN中明确包含乘法,能更清楚地揭示数据中的乘法结构,以期增强可解释性和表达能力。
如图2所示,MultKAN和KAN相似,都包含标准KAN层,但区别在于插入了乘法节点,对输入的子节点进行乘法运算后再进行恒等变换,用Python代码可表示为:
其中⊙表示逐元素乘法。
根据上图,整个MultKAN网络进行的运算就可以写作:
其中,
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。