引论
信息几何是研究统计模型的参数空间的几何结构的数学分支.
• | 统计模型: 一族参概率分布, 比方说 , | ||
• | 参数空间: , 构成 2 维流形. | ||
• | 几何结构: Fisher 信息度量 , 双曲模型.
|
狭义上来讲, 信息几何研究的是一种叫作 “对偶联络” 的特定的几何结构, 最初由数学家 Shun-ichi Amari 提出.
“信息几何” 一词得名于 “Fisher 信息” 这个概念.
设 是一个含参概率密度或概率分布函数, 则其 Fisher 信息定义为其统计学意义通常被描述为: “ 所携带的 的信息量”. 用 个概率密度为 的 i.i.d 的随机变量对 做极大似然估计, 方差 , 显然, 越大, 相同样本量下做估计的精确度越高.
若 中的 , 那么 是一个矩阵, 其第 行 列的元素为对于每一个 , 这是一个正定对称的矩阵.
• | 20 世纪初, 数学家 Hotelling1, Rao2 尝试将 定义为 所定义的参数空间上的 Riemann 度量. 后称为 Fisher-Rao 度量. |
• | 1972 年, 前苏联数学家 N. N. Chentsov 证明了 Fisher-Rao 度量是唯一一个在 “充分统计” 下具有不变性的二阶张量, 而具有此不变性的三阶张量也是唯一的 (都是在差一个常数倍的意义下)3. |
• | 1975 年, 美国数学家 Bradley Efron 在参数空间上定义了一种可以衡量一个参数分布族与指数分布族接程度的 “曲率” (该联络), 并用它来研究统计推断的高阶逼近理论. 该曲率产生了 “Efron 联络” 的概念 4, 它与 Fisher-Rao 度量产生的 Levi-Civita 联络并不一致. |
• | 1982 年, 日本数学家甘利俊一 (Shun-ichi Amari) 引入了 -联络 5 和对偶联络 6 的概念, 标志着 “信息几何学” 的正式成型. Efron 联络即 的情形. 当 形成指数分布族时, -联络是平坦联络, 此时二者分别称为 “指数型 (e-) 联络” 和 “混合型 (m-) 联络”, 这种对偶平坦结构有着非常优美的几何性质. |
目前信息几何已有的应用领域包括
• | 机器学习中的 EM 算法, 自然梯度算法, |
• | 统计物理, 量子统计物理的数学定式化, |
• | 神经网络, 深度学习理论, |
• | 量子信息论, 超弦理论...... |
此外, 它还反哺了传统微分几何. 已经有数学家开始把对偶联络当成一个纯几何对象来研究. 目前相对冷门, 但也确实是一个很有意思的领域.
笔者认为, 把一个数学模型的所有可能参数取值所组成的空间看作是一个流形, 去分析它的几何结构, 这或许是一个应用数学的可行的研究范式. 这是因为流形结构存在于几乎一切应用领域的问题, 尤其是我们常讲的 “非线性问题”, “非凸问题”. (当然, 离散数学问题不算在内), 如人工神经网络 (ANN), 一个 ANN 张成的函数空间不是线性空间, 导致基于线性泛函分析产生的函数逼近理论全部失效. 但这并不妨碍这个 ANN 所有可能参数取值张成一个参数流形. 本列文所介绍的信息几何理论, 或许本身没有那么强的通用性, 但它可以作为一个起点, 带大家了解这种范式.
一个经常和信息几何比较的东西是 “Wasserstein 几何”. 它在一个概率分布族上定义了一个 “Wasserstein 距离”, 在适当的条件下也可以产生一个 Riemann 度量. 这种几何结构的优点是其定义不依赖参数选取, 并且任意两个分布之间有 Wasserstein 距离, 所以它适用于更广泛的分布族.
脚注
1. | Hotelling, Harold (1930). Spaces of statistical parameter, Bulletin of the Calcutta Mathematical Society 37: 81-91. |
2. | C. R. Rao (1945). Information and the accuracy attainable in the estimation of statistical parameters.Bulletin of the American Mathematical Society 36: 191. |
3. | Chent︠s︡ov, N. N. (1982). Statistical decision rules and optimal inference. L. I︠A︡. Leĭfman. Providence, R.I.: American Mathematical Society. ISBN 0-8218-4502-0. OCLC 7837189 |
4. | Efron, Bradley (1975). Defining the Curvature of a Statistical Problem (with Applications to Second Order Efficiency). The Annals of Statistics 3 (6): 1189-1242. doi:10.1214/aos/1176343282. ISSN 0090-5364. |
5. | Amari, Shun-Ichi (1982). Differential Geometry of Curved Exponential Families-Curvatures and Information Loss. The Annals of Statistics 10 (2). doi:10.1214/aos/1176345779. ISSN 0090-5364 |
6. | Nagaoka, Hiroshi; Amari, Shun-ichi (1982). Differential Geometry of Smooth Families of Probability Distributions. METR 82 (7). |