一、
不定项选择题 (每小题 3 分, 共 12 分)
1.
假定在神经网络的隐藏层中使用激活函数 X. 在特定神经元给定输入, 会得到输出 −0.0001, X 可能是以下哪一个激活函数
A.
ReLU
B.
tanh
C.
Sigmoid
D.
以上都不是
2.
下列声明哪些是正确的?
▪
声明 1: 可以通过将所有权重初始化为 0 来训练网络
声明 2: 可以通过将偏置初始化为 0 来训练网络
1 和 2 都错
1 和 2 都对
1 错 2 对
1 对 2 错
3.
假设你在解决一个数据分布有着非常不均衡的分类问题, 即主要类别占据了训练数据的 99%. 现在你的模型在测试集上表现为 99% 的准确率. 下面表述正确的是
准确率并不适合衡量不均衡类别问题
准确率适合衡量不均衡类别问题
精确率 (查准率) 和召回率 (查全率) 适合衡量不均衡类别问题
精确率 (查准率) 和召回率 (查全率) 不适合衡量不均衡类别问题
4.
下面哪些情况可能导致神经网络训练失败
梯度消失
梯度爆炸
激活单元死亡
边点
二、
简答题 (每小题 5 分, 50 分)
请用韦恩图表示深度学习、表示学习、机器学习三者之间的关系, 并给出至少 2 个有代表性的深度学习框架名称.
在深度学习中, C,A 为矩阵, b 为向量, C=A+b 的计算结果是什么? 当机器学习中零和非零元素之间的差异非常重要时, L1 和 L2 范数之中, 通常会使用哪个?
矩阵 A∈Rm×n 的奇异值分解为 A=UDVT, 说明当 m<n, Rank(A)=m 时, 线性方程组 Ax=y 所有可行解中, ∥x∥2 最小的解可表示为 x=A+y,A+=VD+UT
随机变量 X2 和 X3 在给定随机变量 X1 时是条件独立的数学表达? 给出上述 X1,X2,X3 三个变量的图形化表示 (结构化概率图模型) , 并给出其联合概率密度函数.
5.
f(x)=x3+y3−3xy, 给出求 f(x) 极小值过程的牛顿法迭代公式, 当前取 xn,yn 处, ((xn,yn)=(0,0))
6.
请给出线性可分问题 ((xn,yn),n=1,⋯,N) 支持向量机算法的数学描述 (目标函数、约束条件) , 其对应的广义拉格朗日函数、以及 KKT 条件.
7.
请说明经过连续两个 3×3 卷积运算和一个 5×5 卷积运算的优劣 (从感受野、参数个数) ?
8.
请给出简单循环神经网络 (只有一个隐藏层) 的数学描述 (隐藏层、输出层的数学公式) , 其中记号如下: 输入 xt, 状态-输入权重矩阵 W, 偏置向量 b, 隐藏层状态 ht, f(⋅) 是非线性激活函数, 线性输出权重矩阵 V, 输出 yt. 并指出长短期记忆 (LSTM) 模型的特点 (用语言描述) ?
9.
随机猜测作为一个分类算法是否一定比 SVM 差? 借此阐述你对 “No Free Lunch Theorem” 的理解.
10.
你有哪些深度学习调参经验?
三、
问答题 (每题 9 分, 共 18 分)
Logistic 回归是一种常用的处理二分类问题的离散因变量模型, y∈{0,1}, p(y=1∣x)=σ(wTx), σ(x)=1+e−x1. 给定 N 个训练样本 {(x(n),y(n))}, 试用交叉熵作为损失函数, 并使用小批量 AdaGrad 算法对参数进行更新, 给出算法伪代码.
给出利用拒绝-接受法生成标准正态分布的伪代码 (可以利用的是 (0,1) 上的均匀分布) , 并对其中关键参数选择进行说明.
四、
问答题 (每题 10 分, 共 20 分)
以线性回归模型为例, 损失函数 J(w) 取为均方误差, 说明参数 L2 正则化的影响 (分析参数的变化) .
给定一个样本 (x,y), 将其输入到前馈神经网络模型 (深度为 2) 中, 得到网络输出为 y^. 假设损失函数为 L(y,y^)=21∥y−y^∥22, 计算损失函数关于网络中每个参数的导数. 记号如下: 层数 (只考虑隐藏层和输出层) L, Ml 为第 l 层神经元的个数, fl(⋅) 为第 l 层神经元的激活函数, Wl∈RMl×Ml−1 为第 l−1 层到第 l 层的权重矩阵, b(l)∈RMl 为第 l−1 层到第 l 层的偏置, zl∈RMl 为第 l 层神经元的净输入, al∈RMl 为第 l 层神经元的输出.