华为机考

计算题-概率/矩阵

若二次型 $f(x_1,x_2,x_3)=5x_{1}^2+5x_{2}^2+cx_3^2−2x_1x_2+6x_1x_3−6x_2x_3$的秩为 2 ,则 c=?

$f = 5x_1^2 + 5x_2^2 + cx_3^2 - 2x_1x_2 + 6x_1x_3 - 6x_2x_3$
对应的矩阵是：
$A=\begin{pmatrix}5 & -1 & 3 \\ -1 & 5 & -3 \\ 3 & -3 & c \end{pmatrix}$
秩为2=行列式=0:
$|A| = 24(c - 3)\\ 24(c - 3) = 0 \\ c = 3$

设 $A$为3阶矩阵，且 $∣A∣=2$ ，则$\vert(\frac 1 3 A)^{-1}-\frac 1 2A^*\vert=?$

注：$A^∗$表示 $A$ 的伴随矩阵

逆的缩放律：
$(\alpha A)^{-1} = \frac{1}{\alpha} A^{-1}$
所以：
$\left(\frac{1}{3}A\right)^{-1} = 3A^{-1}$
A−1=∣A∣1A∗=21A∗

代入：
$3A^{-1} = \frac{3}{2}A^*$ $\frac{3}{2}A^* - \frac{1}{2}A^* = A^*$
若 $A$ 为 $n \times n$ 矩阵，则：
$|A^*| = |A|^{n-1}$
这里 $n = 3$，$|A| = 2$，因此：
$|A^*| = 2^{3-1} = 4$

设 A 是 3 阶方阵，将 A 的第 1 列与第 2 列交换得到 B，再把 B 的第 2 列加到第 3 列得到C，则满足 AQ=C 的可逆矩阵 Q 为?

$\begin{pmatrix}c_1&c_2&c_3\end{pmatrix} \begin{pmatrix} 0 & 1 & 1 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}=\begin{pmatrix}c_2&c_1&c_1+c_3\end{pmatrix}$

向量 A=[1,2,3,0,−3]的 L1范数为?

$\| A\|_1=\sum_i |a_i|=9\\$

某12层Transformer，hidden size=768，MLP 扩展比=4，则每层 MLP 的参数量约为？

[ ] 18.88 M
[ ] 9.44 M
[x] 4.72 M
[ ] 2.36 M

12层是个无效信息。因为问的是每层的参数量。对于一个transformer(encoder+decoder),会有两个ffn网络。NO!

Actually: 这里有一个行业默认前提，题目虽然没写，但在 ML 题库里几乎是约定俗成的：“12 层 Transformer” = 12 个 Transformer block（encoder blocks）

MLP 结构：
$768 \rightarrow 3072 \rightarrow 768$
参数量：

第一层：$768 \times 3072 = 2.36M$

第二层：$3072 \times 768 = 2.36M$

合计：
$2.36 + 2.36 = 4.72M$
（bias 通常忽略）

A∈R2×2，特征值：

$\lambda_1 = 3,\quad \lambda_2 = -1$

求：$\mathrm{tr}(A)$

$tr(A)=\sum_i \lambda_i=2$

用梯形法则计算定积分时，若被积函数的二阶导数在区间 [a,b]上的最大值为M，积分区间等分为 n 段，则截断误差的上界为以下哪一项?

[ ] $\frac{M(b-a)^2}{2n^2}$
[x] $\frac{M(b-a)^3}{12n^2}$
[ ] $\frac{M(b-a)}{2n}$
[ ] $\frac{M(b-a)^4}{24n^3}$

复合梯形公式的截断误差满足：
$|E_T| \le \frac{(b-a)^3}{12n^2}\max_{x\in[a,b]}|f''(x)|$
A：少了一个 $(b-a)$，量纲不对

C：这是一阶误差，不可能

D：这是 Simpson 法（四阶）才会出现的形式

在一个基于Transformer的多模态模型中，视觉-文本对齐模块的目标是将图像特征 $V\in \mathbb{R}^{n×d_v}$和文本特征$T\in\mathbb{R}^{n、times d_t}$映射到同一语义空间若采用对比学习(Contrastive Learning)框架，则损失函数可选下列哪个?

[x] $-\log \frac{\exp(\text{sim}(V_i,T_i))}{\sum_j \exp(\text{sim}(V_i,T_j))}$
[ ] $\text{CrossEntropy}(V_i,T_j)$
[ ] $\text{KL-Divergence}(V_i|T_j)$
[ ] $\text{MSE}(V_i,T_j)$

使用 InfoNCE / NT-Xent 形式

即：

$-\log \frac{\exp(\text{sim}(V_i,T_i))}{\sum_j \exp(\text{sim}(V_i,T_j))}$
选项判断

A：标准 InfoNCE 形式（只是用 sin 表示相似度）

B：普通 CrossEntropy，未体现“负样本对比”

C：KL 用于分布对齐，不是主流 CL

D：MSE 不具备判别性

单选题

在处理用户评论情感分类任务时，你发现数据集里正面评论和负面评论的比例是9:1，这是一个典型的数据不平衡问题。在这种情况下，以下哪个评估指标最不能客观地反映模型的性能?

[ ] 召回率(Recall)
[ ] AUC(ROC曲线下面积)
[ ] F1-Score
[x] 准确率(Accuracy)

在正负样本比例严重不平衡的数据集中（如正负样本比为 9：1）：

如果一个模型把所有样本都预测为多数类，准确率仍然会很高；

但这种预测实际上对少数类没有区分能力；

因此准确率无法有效反映模型在不平衡数据集上的性能。

而像 Recall、F1-score、AUC 这些指标对不平衡更敏感，更能体现模型性能。

所以本题选择 D. 准确率（Accuracy） 作为不适合评估不平衡数据集性能的指标。

大模型训练中的”LoRA(Low-Rank Adaptation)“技术主要作用是？

在微调阶段通过低秩矩阵减少要更新的参数量。

LoRA 的核心思想是：
$W \leftarrow W + \Delta W, \quad \Delta W = BA$
其中：$A \in \mathbb{R}^{r \times d}$；$B \in \mathbb{R}^{d \times r}$；$r \ll d$；

特点：

冻结原模型参数

只训练低秩矩阵

显著减少显存与训练成本

模型出现过拟合，哪些操作和优化能够缓解或减少过拟合带来的问题？

[ ] 在原有数据集上重新训练
[x] 添加正则化
[ ] 将数据集复制后再训练
[ ] 减少数据集后再训练

在机器学习中，将一张 28 × 28 像素的灰度图像转换为特征向量时，要求特征向量能完整保存原有信息的操作是?

[ ] 仅保留边缘检测后的像素值
[ ] 计算每个4×4 块的平均值，生成49 维向量
[x] 将像素矩阵按行展平为 784 维向量
[ ] 直接使用原始像素矩阵作为输入

我本来觉得应该是原始的像素矩阵输入，但是这并不是一个“向量”

在参数高效微调(PEFT)方法中，LoRA 通过在 Transformer 线性层插入可训练的低秩矩阵来近似权重更新。下面哪一项最能解释为什么 LoRA 对推理时延几平没有负面影响？

[ ] LoRA 把权重量化为 INT4
[ ] 低秩更新的秩很小，且与原矩阵无法并行融合
[ ] LoRA 只在训练阶段生效，推理阶段完全丢弃
[x] 低秩矩阵的乘法可以离线编译到权重中

A：那是量化，不是LoRA

B：可以融合

C：LoRA用于推理

二分法(Bisection Method)求解方程时，其收敛速度是()?

[ ] 超线性收敛
[ ] 不收敛
[ ] 二次收敛
[ ] 线性收敛

结论

二分法每次区间长度减半

误差：$|e_k| \le \frac{b-a}{2^k}$

因此

收敛阶：线性收敛（order 1）

多选题

以下说法正确的是（）

[ ] 向量组 $\alpha_1,\alpha_2,\dots,\alpha_n$ 线性相关的充要条件是：任意一个向量 $\alpha_i$ 都可以由其余 $n-1$ 个向量线性表示。
[x] $n \ge 2$，向量组$\alpha_1-\alpha_2,\ \alpha_2-\alpha_3,\ \dots,\ \alpha_{n-1}-\alpha_n,\ 2(\alpha_n-\alpha_1)$一定线性相关。
[x] 设 $A,B$ 为满足 $AB=0$ 的任意两个非零矩阵，则一定有A 的列向量线性相关，B 的行向量线性相关。
[ ] 设 $A$ 为 3 阶非零实方阵，$A^$ 为伴随矩阵，若$A^ = -A^T$则 $\det(A) < 0$

A. 这不是线性相关的等价定义:至少存在一向量可由其余向量线性表示 ⇔ 向量组线性相关

B. $(\alpha_1-\alpha_2)+\cdots+(\alpha_{n-1}-\alpha_n)+2(\alpha_n-\alpha_1)=0$：存在非零线性组合等于零 → 线性相关

C. $AB=0$ 只说明 B 的值域 ⊆ A 的零空间。并不必然导致：A 列向量线性相关、B 行向量线性相关

D. $\det(A^*) = \det(A)^{n-1} = \det(A)^2$

$\det(-A^T)=(-1)^3\det(A)=-\det(A)$

$\Rightarrow \det(A)^2 = -\det(A) \Rightarrow \det(A)=-1\le 0$

主成分分析（PCA）的前 (k) 个主成分具有哪些性质？

[x] 方差依次最大
[ ] 原始数据旋转后主成分不变
[x] 主成分之间正交
[ ] 与原始特征线性无关

A. PCA 的目标函数：最大化投影方差。第 1 主成分方差最大，第 2 次之，依次递减

B. PCA 不具有旋转不变性，数据旋转会改变协方差矩阵 → 改变主成分方向

C. 主成分是协方差矩阵的特征向量，对应不同特征值的特征向量正交

D. 主成分 是原始特征的线性组合，恰恰“线性相关”

在为大型语言模型（LLM）选择与调整优化器时，以下哪些论断在理论或工程实践中被广泛认可？

[x] Adam 的 Bias Correction 用于修正训练初期动量估计偏小问题，有助于更合理的学习率尺度
[x] 在“峡谷地形”中，相较于 SGD，Adam / RMSprop 可自适应缩放不同维度学习率，抑制振荡、加速收敛
[x] 对于 Adam / RMSprop，若某参数梯度长期稀疏，则其有效学习率会逐渐减小，从而更新更稳定
[x] 相比 SGD with Momentum，Adam / RMSprop 需要维护额外的一阶、二阶动量，显著增加显存占用

A. Adam:$\hat m_t = \frac{m_t}{1-\beta_1^t},\quad \hat v_t = \frac{v_t}{1-\beta_2^t}$, 对大模型早期训练非常关键

B. Adam/RMSprop 按维度归一化梯度，是其最经典的优势场景

C. 累积二阶矩$v_t$会抑制噪声更新，稀疏梯度下表现稳定

D. Adam 需要：参数\一阶动量 $m_t$\二阶动量 $v_t$，显存占用约为 SGD 的 2–3 倍

在某场景中，事件$A_1,A_2,A_3$构成样本空间的一个划分。满足$P(A_1)=0.2,\ P(A_2)=0.3,\ P(A_3)=0.5$。已知条件概率$P(B|A_1)=0.1,\ P(B|A_2)=0.4,\ P(B|A_3)=0.6$。下面哪些是正确的？

[ ] $P(A_2|B)\neq P(B|A_2)$
[x] $P(B)=0.44$
[x] $P(A_1|B)\approx0.045$
[x] $P(A_2|B)\approx0.273$

总概率：
$P(B)=0.2\times0.1+0.3\times0.4+0.5\times0.6=0.44$
贝叶斯公式：
$P(A_2|B)=\frac{P(B|A_2)P(A_2)}{P(B)}=\frac{0.4\times0.3}{0.44}\approx0.273\\ P(A_1|B)=\frac{0.1\times0.2}{0.44}\approx0.045$

以下优化算法，说法正确的是？

[x] L-BFGS 是二阶优化方法
[ ] Momentum 是二阶优化方法
[x] Adam 是一阶优化方法
[x] AdaGrad 是一阶优化方法
[x] AdamW 是一阶优化方法

A:使用 Hessian 的低秩近似,属于拟牛顿法（二阶） q

B:Momentum 仅使用一阶梯度 + 指数加权,不涉及 Hessian 或其近似

C:仅依赖一阶梯度,二阶矩是梯度平方的统计量，不是 Hessian

E:AdamW = Adam + decoupled weight decay,本质仍是一阶方法

2026-1-9

华为机考

计算题-概率/矩阵

单选题

多选题