百味交融
2025-06-07 16:46:55
矩阵求导是机器学习和优化问题中的核心工具,其本质是将多元函数的导数推广到矩阵形式。直接应用以下规则可快速掌握核心方法。
矩阵求导怎么做
标量对矩阵求导时,结果矩阵与原矩阵同尺寸,每个元素为标量对对应元素的偏导。例如,若$f(X)=\text{tr}(AX^TB)$,则$\frac{\partial f}{\partial X}=A^TB^T$。矩阵对标量求导则逐元素求导,结果仍为矩阵。若$X(t)$是$t$的函数,$\frac{dX}{dt}$即为每个元素对$t$的导数组成的矩阵。
矩阵对矩阵求导需引入张量,但实际中常通过向量化简化。将矩阵按列堆叠为向量,导数转化为雅可比矩阵。例如,$Y=AX$中$\frac{\partial Y}{\partial X}$可表示为$I\otimes A$,其中$\otimes$为克罗内克积。链式法则仍适用,但需注意维度匹配和乘法顺序。
常用公式可减少计算量。二次型$\frac{\partial (x^TAx)}{\partial x}=2Ax$(当$A$对称),矩阵迹$\frac{\partial \text{tr}(AX)}{\partial X}=A^T$。梯度与导数关系需明确布局约定:分子布局保持导数与原函数同维度,分母布局则转置。
验证结果时,检查维度一致性是关键。若$f$是标量,$X$为$m\times n$矩阵,$\frac{\partial f}{\partial X}$必须同为$m\times n$。通过数值梯度(如中心差分法)验证符号推导,可避免复杂计算错误。