2026-1-9
华为机考
计算题-概率/矩阵
若二次型 $f(x_1,x_2,x_3)=5x_{1}^2+5x_{2}^2+cx_3^2−2x_1x_2+6x_1x_3−6x_2x_3$的秩为 2 ,则 c=?
对应的矩阵是:
秩为2=行列式=0:
设 $A$为3阶矩阵,且 $∣A∣=2$ ,则$\vert(\frac 1 3 A)^{-1}-\frac 1 2A^*\vert=?$
注:$A^∗$表示 $A$ 的伴随矩阵
逆的缩放律:
所以:
A−1=∣A∣1A∗=21A∗
代入:
若 $A$ 为 $n \times n$ 矩阵,则:
这里 $n = 3$,$|A| = 2$,因此:
设 A 是 3 阶方阵,将 A 的第 1 列与第 2 列交换得到 B,再把 B 的第 2 列加到第 3 列得到C,则满足 AQ=C 的可逆矩阵 Q 为?
向量 A=[1,2,3,0,−3]的 L1范数为?
某12层Transformer,hidden size=768,MLP 扩展比=4,则每层 MLP 的参数量约为?
- [ ] 18.88 M
- [ ] 9.44 M
- [x] 4.72 M
- [ ] 2.36 M
12层是个无效信息。因为问的是每层的参数量。对于一个transformer(encoder+decoder),会有两个ffn网络。NO!
Actually: 这里有一个行业默认前提,题目虽然没写,但在 ML 题库里几乎是约定俗成的:“12 层 Transformer” = 12 个 Transformer block(encoder blocks)
MLP 结构:
参数量:
- 第一层:$768 \times 3072 = 2.36M$
- 第二层:$3072 \times 768 = 2.36M$
合计:
(bias 通常忽略)
A∈R2×2,特征值:
求:$\mathrm{tr}(A)$
用梯形法则计算定积分时,若被积函数的二阶导数在区间 [a,b]上的最大值为M,积分区间等分为 n 段,则截断误差的上界为以下哪一项?
- [ ] $\frac{M(b-a)^2}{2n^2}$
- [x] $\frac{M(b-a)^3}{12n^2}$
- [ ] $\frac{M(b-a)}{2n}$
- [ ] $\frac{M(b-a)^4}{24n^3}$
复合梯形公式的截断误差满足:
A:少了一个 $(b-a)$,量纲不对
C:这是一阶误差,不可能
D:这是 Simpson 法(四阶)才会出现的形式
在一个基于Transformer的多模态模型中,视觉-文本对齐模块的目标是将图像特征 $V\in \mathbb{R}^{n×d_v}$和文本特征$T\in\mathbb{R}^{n、times d_t}$映射到同一语义空间若采用对比学习(Contrastive Learning)框架,则损失函数可选下列哪个?
- [x] $-\log \frac{\exp(\text{sim}(V_i,T_i))}{\sum_j \exp(\text{sim}(V_i,T_j))}$
- [ ] $\text{CrossEntropy}(V_i,T_j)$
- [ ] $\text{KL-Divergence}(V_i|T_j)$
- [ ] $\text{MSE}(V_i,T_j)$
- 使用 InfoNCE / NT-Xent 形式
- 即:
选项判断
- A:标准 InfoNCE 形式(只是用 sin 表示相似度)
- B:普通 CrossEntropy,未体现“负样本对比”
- C:KL 用于分布对齐,不是主流 CL
- D:MSE 不具备判别性
单选题
在处理用户评论情感分类任务时,你发现数据集里正面评论和负面评论的比例是9:1,这是一个典型的数据不平衡问题。在这种情况下,以下哪个评估指标最不能客观地反映模型的性能?
- [ ] 召回率(Recall)
- [ ] AUC(ROC曲线下面积)
- [ ] F1-Score
- [x] 准确率(Accuracy)
在正负样本比例严重不平衡的数据集中(如正负样本比为 9:1):
- 如果一个模型把所有样本都预测为多数类,准确率仍然会很高;
- 但这种预测实际上对少数类没有区分能力;
- 因此准确率无法有效反映模型在不平衡数据集上的性能。
而像 Recall、F1-score、AUC 这些指标对不平衡更敏感,更能体现模型性能。
所以本题选择 D. 准确率(Accuracy) 作为不适合评估不平衡数据集性能的指标。
大模型训练中的”LoRA(Low-Rank Adaptation)“技术主要作用是?
在微调阶段通过低秩矩阵减少要更新的参数量。
LoRA 的核心思想是:
其中:$A \in \mathbb{R}^{r \times d}$;$B \in \mathbb{R}^{d \times r}$;$r \ll d$;
特点:
- 冻结原模型参数
- 只训练低秩矩阵
- 显著减少显存与训练成本
模型出现过拟合,哪些操作和优化能够缓解或减少过拟合带来的问题?
- [ ] 在原有数据集上重新训练
- [x] 添加正则化
- [ ] 将数据集复制后再训练
- [ ] 减少数据集后再训练
在机器学习中,将一张 28 × 28 像素的灰度图像转换为特征向量时,要求特征向量能完整保存原有信息的操作是?
- [ ] 仅保留边缘检测后的像素值
- [ ] 计算每个4×4 块的平均值,生成49 维向量
- [x] 将像素矩阵按行展平为 784 维向量
- [ ] 直接使用原始像素矩阵作为输入
我本来觉得应该是原始的像素矩阵输入,但是这并不是一个“向量”
在参数高效微调(PEFT)方法中,LoRA 通过在 Transformer 线性层插入可训练的低秩矩阵来近似权重更新。下面哪一项最能解释为什么 LoRA 对推理时延几平没有负面影响?
- [ ] LoRA 把权重量化为 INT4
- [ ] 低秩更新的秩很小,且与原矩阵无法并行融合
- [ ] LoRA 只在训练阶段生效,推理阶段完全丢弃
- [x] 低秩矩阵的乘法可以离线编译到权重中
A:那是量化,不是LoRA
B:可以融合
C:LoRA用于推理
二分法(Bisection Method)求解方程 时,其收敛速度是()?
- [ ] 超线性收敛
- [ ] 不收敛
- [ ] 二次收敛
- [ ] 线性收敛
结论
- 二分法每次区间长度减半
- 误差:$|e_k| \le \frac{b-a}{2^k}$
因此
- 收敛阶:线性收敛(order 1)
多选题
以下说法正确的是( )
[ ] 向量组 $\alpha_1,\alpha_2,\dots,\alpha_n$ 线性相关的充要条件是:任意一个向量 $\alpha_i$ 都可以由其余 $n-1$ 个向量线性表示。
[x] $n \ge 2$,向量组$\alpha_1-\alpha_2,\ \alpha_2-\alpha_3,\ \dots,\ \alpha_{n-1}-\alpha_n,\ 2(\alpha_n-\alpha_1)$一定线性相关。
[x] 设 $A,B$ 为满足 $AB=0$ 的任意两个非零矩阵,则一定有A 的列向量线性相关,B 的行向量线性相关。
[ ] 设 $A$ 为 3 阶非零实方阵,$A^$ 为伴随矩阵,若$A^ = -A^T$则 $\det(A) < 0$
A. 这不是线性相关的等价定义:至少存在一向量可由其余向量线性表示 ⇔ 向量组线性相关
B. $(\alpha_1-\alpha_2)+\cdots+(\alpha_{n-1}-\alpha_n)+2(\alpha_n-\alpha_1)=0$:存在非零线性组合等于零 → 线性相关
C. $AB=0$ 只说明 B 的值域 ⊆ A 的零空间。并不必然导致:A 列向量线性相关、B 行向量线性相关
D. $\det(A^*) = \det(A)^{n-1} = \det(A)^2$
$\det(-A^T)=(-1)^3\det(A)=-\det(A)$
$\Rightarrow \det(A)^2 = -\det(A) \Rightarrow \det(A)=-1\le 0$
主成分分析(PCA)的前 (k) 个主成分具有哪些性质?
- [x] 方差依次最大
- [ ] 原始数据旋转后主成分不变
- [x] 主成分之间正交
- [ ] 与原始特征线性无关
A. PCA 的目标函数:最大化投影方差。第 1 主成分方差最大,第 2 次之,依次递减
B. PCA 不具有旋转不变性,数据旋转会改变协方差矩阵 → 改变主成分方向
C. 主成分是协方差矩阵的特征向量,对应不同特征值的特征向量正交
D. 主成分 是原始特征的线性组合,恰恰“线性相关”
在为大型语言模型(LLM)选择与调整优化器时,以下哪些论断在理论或工程实践中被广泛认可?
- [x] Adam 的 Bias Correction 用于修正训练初期动量估计偏小问题,有助于更合理的学习率尺度
- [x] 在“峡谷地形”中,相较于 SGD,Adam / RMSprop 可自适应缩放不同维度学习率,抑制振荡、加速收敛
- [x] 对于 Adam / RMSprop,若某参数梯度长期稀疏,则其有效学习率会逐渐减小,从而更新更稳定
- [x] 相比 SGD with Momentum,Adam / RMSprop 需要维护额外的一阶、二阶动量,显著增加显存占用
A. Adam:$\hat m_t = \frac{m_t}{1-\beta_1^t},\quad \hat v_t = \frac{v_t}{1-\beta_2^t}$, 对大模型早期训练非常关键
B. Adam/RMSprop 按维度归一化梯度,是其最经典的优势场景
C. 累积二阶矩$v_t$会抑制噪声更新,稀疏梯度下表现稳定
D. Adam 需要:参数\一阶动量 $m_t$\二阶动量 $v_t$,显存占用约为 SGD 的 2–3 倍
在某场景中,事件$A_1,A_2,A_3$构成样本空间的一个划分。满足$P(A_1)=0.2,\ P(A_2)=0.3,\ P(A_3)=0.5$。已知条件概率$P(B|A_1)=0.1,\ P(B|A_2)=0.4,\ P(B|A_3)=0.6$。下面哪些是正确的?
- [ ] $P(A_2|B)\neq P(B|A_2)$
- [x] $P(B)=0.44$
- [x] $P(A_1|B)\approx0.045$
- [x] $P(A_2|B)\approx0.273$
总概率:
贝叶斯公式:
以下优化算法,说法正确的是?
- [x] L-BFGS 是二阶优化方法
- [ ] Momentum 是二阶优化方法
- [x] Adam 是一阶优化方法
- [x] AdaGrad 是一阶优化方法
- [x] AdamW 是一阶优化方法
A:使用 Hessian 的低秩近似,属于拟牛顿法(二阶) q
B:Momentum 仅使用一阶梯度 + 指数加权,不涉及 Hessian 或其近似
C:仅依赖一阶梯度,二阶矩是梯度平方的统计量,不是 Hessian
E:AdamW = Adam + decoupled weight decay,本质仍是一阶方法