统计物理方法处理机器学习问题取得重要进展
包括深度学习在内的机器学习研究近年来发展迅速,掀起了人工智能领域新一轮热潮,并使人工智能成为大众广泛讨论的议题。机器学习程序,例如谷歌公司的 Alpha Go,在语音分析、围棋、图像识别等方面之所以取得巨大的成功,其中最重要的原因是用来进行模型训练的数据量在不断增大,而且计算性能的快速提高使得可以构建的模型尺寸也在快速增大。大数据的涌现为统计物理应用于这个快速发展领域提供了极好的契机。中国科学院理论物理研究所副研究员张潘博士以统计物理与机器学习这一新兴交叉学科研究前沿为主攻对象,将自旋玻璃理论与消息传递算法用于机器学习中的统计推断和神经网络等理论问题中,取得了可喜的阶段性成果,论文接连发表于物理学顶级刊物 PRX (Physical Review X) 及机器学习顶级国际会议 NIPS (Neural Information Processing Systems), 受到国际国内同行的关注。
在 NIPS 论文 [1] 中,张潘探讨复杂数据的全局结构问题,他的目标是通过谱方法寻找并表征高维数据的全局结构。虽然谱方法(包括谱聚类、主成分析、奇异值分解等等)因为其低复杂度和简洁性在机器学习中被广泛使用,但实际数据通常有很强的稀疏性且包含各种噪声,导致传统的谱方法出现本征向量或者奇异向量的局域化现象而不能很好的描述数据的全局结构。张潘发现可以用刻画波函数局域化的方法来描述谱方法局域化现象,并在此基础上提出了一种基于微扰分析的快速谱算法用于提取稀疏高维数据的重要结构信息,从而克服了谱方法的一个严重瓶颈问题。新的谱方法在测试数据集上非常成功,将扩展谱方法的应用范围,推动大数据挖掘研究。
在 PRX 论文 [2] 中,张潘和合作者基于统计物理自旋玻璃方法和相变理论研究随时间演化的大规模网络的社区结构探测问题。他们能够精确计算出基准模型网络的可探测相变点,而且提出并验证了可以工作到理论极限的消息传递算法和谱算法。这项工作预期将推动网络科学的模式识别研究的进一步发展。
张潘副研究员的工作得到中国科学院理论物理重点实验室的资助。
[1] "Robust Spectral Detection of Global Structures in the Data by Learning a Regularization", P. Zhang,Advances in Neural Information Processing Systems (2016) , arXiv: 1609.02906 (2016).
[2] "Detectability Thresholds and Optimal Algorithms for Community Structure in Dynamic Networks", A. Ghasemian, P. Zhang, A. Clauset, C. Moore, and L. Peel, ?Physical Review X 6, 031005 (2016).