Schwertlilien
As a recoder: notes and ideas.

2026-1-9

华为机考

计算题-概率/矩阵

若二次型 $f(x_1,x_2,x_3)=5x_{1}^2+5x_{2}^2+cx_3^2−2x_1x_2+6x_1x_3−6x_2x_3$的秩为 2 ,则 c=?

对应的矩阵是:

秩为2=行列式=0:

设 $A$为3阶矩阵,且 $∣A∣=2$ ,则$\vert(\frac 1 3 A)^{-1}-\frac 1 2A^*\vert=?$

注:$A^∗$表示 $A$ 的伴随矩阵

逆的缩放律:

所以:

A−1=∣A∣1A∗=21A∗

代入:

若 $A$ 为 $n \times n$ 矩阵,则:

这里 $n = 3$,$|A| = 2$,因此:

设 A 是 3 阶方阵,将 A 的第 1 列与第 2 列交换得到 B,再把 B 的第 2 列加到第 3 列得到C,则满足 AQ=C 的可逆矩阵 Q 为?

向量 A=[1,2,3,0,−3]的 L1范数为?

某12层Transformer,hidden size=768,MLP 扩展比=4,则每层 MLP 的参数量约为?

  • [ ] 18.88 M
  • [ ] 9.44 M
  • [x] 4.72 M
  • [ ] 2.36 M

12层是个无效信息。因为问的是每层的参数量。对于一个transformer(encoder+decoder),会有两个ffn网络。NO!

Actually: 这里有一个行业默认前提,题目虽然没写,但在 ML 题库里几乎是约定俗成的“12 层 Transformer” = 12 个 Transformer block(encoder blocks)

MLP 结构:

参数量:

  • 第一层:$768 \times 3072 = 2.36M$
  • 第二层:$3072 \times 768 = 2.36M$

合计:

(bias 通常忽略)

A∈R2×2,特征值:

求:$\mathrm{tr}(A)$

用梯形法则计算定积分时,若被积函数的二阶导数在区间 [a,b]上的最大值为M,积分区间等分为 n 段,则截断误差的上界为以下哪一项?

  • [ ] $\frac{M(b-a)^2}{2n^2}$
  • [x] $\frac{M(b-a)^3}{12n^2}$
  • [ ] $\frac{M(b-a)}{2n}$
  • [ ] $\frac{M(b-a)^4}{24n^3}$

复合梯形公式的截断误差满足:

A:少了一个 $(b-a)$,量纲不对

C:这是一阶误差,不可能

D:这是 Simpson 法(四阶)才会出现的形式

在一个基于Transformer的多模态模型中,视觉-文本对齐模块的目标是将图像特征 $V\in \mathbb{R}^{n×d_v}$和文本特征$T\in\mathbb{R}^{n、times d_t}$映射到同一语义空间若采用对比学习(Contrastive Learning)框架,则损失函数可选下列哪个?

  • [x] $-\log \frac{\exp(\text{sim}(V_i,T_i))}{\sum_j \exp(\text{sim}(V_i,T_j))}$
  • [ ] $\text{CrossEntropy}(V_i,T_j)$
  • [ ] $\text{KL-Divergence}(V_i|T_j)$
  • [ ] $\text{MSE}(V_i,T_j)$
  • 使用 InfoNCE / NT-Xent 形式
  • 即:

选项判断

  • A:标准 InfoNCE 形式(只是用 sin 表示相似度)
  • B:普通 CrossEntropy,未体现“负样本对比”
  • C:KL 用于分布对齐,不是主流 CL
  • D:MSE 不具备判别性

单选题

在处理用户评论情感分类任务时,你发现数据集里正面评论和负面评论的比例是9:1,这是一个典型的数据不平衡问题。在这种情况下,以下哪个评估指标最不能客观地反映模型的性能?

  • [ ] 召回率(Recall)
  • [ ] AUC(ROC曲线下面积)
  • [ ] F1-Score
  • [x] 准确率(Accuracy)

在正负样本比例严重不平衡的数据集中(如正负样本比为 9:1):

  • 如果一个模型把所有样本都预测为多数类,准确率仍然会很高;
  • 但这种预测实际上对少数类没有区分能力;
  • 因此准确率无法有效反映模型在不平衡数据集上的性能。

而像 Recall、F1-score、AUC 这些指标对不平衡更敏感,更能体现模型性能。

所以本题选择 D. 准确率(Accuracy) 作为不适合评估不平衡数据集性能的指标。

大模型训练中的”LoRA(Low-Rank Adaptation)“技术主要作用是?

在微调阶段通过低秩矩阵减少要更新的参数量。

LoRA 的核心思想是:

其中:$A \in \mathbb{R}^{r \times d}$;$B \in \mathbb{R}^{d \times r}$;$r \ll d$;

特点

  • 冻结原模型参数
  • 只训练低秩矩阵
  • 显著减少显存与训练成本

模型出现过拟合,哪些操作和优化能够缓解或减少过拟合带来的问题?

  • [ ] 在原有数据集上重新训练
  • [x] 添加正则化
  • [ ] 将数据集复制后再训练
  • [ ] 减少数据集后再训练

在机器学习中,将一张 28 × 28 像素的灰度图像转换为特征向量时,要求特征向量能完整保存原有信息的操作是?

  • [ ] 仅保留边缘检测后的像素值
  • [ ] 计算每个4×4 块的平均值,生成49 维向量
  • [x] 将像素矩阵按行展平为 784 维向量
  • [ ] 直接使用原始像素矩阵作为输入

我本来觉得应该是原始的像素矩阵输入,但是这并不是一个“向量”

在参数高效微调(PEFT)方法中,LoRA 通过在 Transformer 线性层插入可训练的低秩矩阵来近似权重更新。下面哪一项最能解释为什么 LoRA 对推理时延几平没有负面影响?

  • [ ] LoRA 把权重量化为 INT4
  • [ ] 低秩更新的秩很小,且与原矩阵无法并行融合
  • [ ] LoRA 只在训练阶段生效,推理阶段完全丢弃
  • [x] 低秩矩阵的乘法可以离线编译到权重中

A:那是量化,不是LoRA

B:可以融合

C:LoRA用于推理

二分法(Bisection Method)求解方程 时,其收敛速度是()?

  • [ ] 超线性收敛
  • [ ] 不收敛
  • [ ] 二次收敛
  • [ ] 线性收敛

结论

  • 二分法每次区间长度减半
  • 误差:$|e_k| \le \frac{b-a}{2^k}$

因此

  • 收敛阶:线性收敛(order 1)

多选题

以下说法正确的是( )

  • [ ] 向量组 $\alpha_1,\alpha_2,\dots,\alpha_n$ 线性相关的充要条件是:任意一个向量 $\alpha_i$ 都可以由其余 $n-1$ 个向量线性表示。

  • [x] $n \ge 2$,向量组$\alpha_1-\alpha_2,\ \alpha_2-\alpha_3,\ \dots,\ \alpha_{n-1}-\alpha_n,\ 2(\alpha_n-\alpha_1)$一定线性相关。

  • [x] 设 $A,B$ 为满足 $AB=0$ 的任意两个非零矩阵,则一定有A 的列向量线性相关,B 的行向量线性相关。

  • [ ] 设 $A$ 为 3 阶非零实方阵,$A^$ 为伴随矩阵,若$A^ = -A^T$则 $\det(A) < 0$

A. 这不是线性相关的等价定义:至少存在一向量可由其余向量线性表示 ⇔ 向量组线性相关

B. $(\alpha_1-\alpha_2)+\cdots+(\alpha_{n-1}-\alpha_n)+2(\alpha_n-\alpha_1)=0$:存在非零线性组合等于零 → 线性相关

C. $AB=0$​ 只说明 B 的值域 ⊆ A 的零空间。并不必然导致:A 列向量线性相关、B 行向量线性相关

D. $\det(A^*) = \det(A)^{n-1} = \det(A)^2$

$\det(-A^T)=(-1)^3\det(A)=-\det(A)$

$\Rightarrow \det(A)^2 = -\det(A) \Rightarrow \det(A)=-1\le 0$

主成分分析(PCA)的前 (k) 个主成分具有哪些性质?

  • [x] 方差依次最大
  • [ ] 原始数据旋转后主成分不变
  • [x] 主成分之间正交
  • [ ] 与原始特征线性无关

A. PCA 的目标函数:最大化投影方差。第 1 主成分方差最大,第 2 次之,依次递减

B. PCA 不具有旋转不变性,数据旋转会改变协方差矩阵 → 改变主成分方向

C. 主成分是协方差矩阵的特征向量,对应不同特征值的特征向量正交

D. 主成分 是原始特征的线性组合,恰恰“线性相关”

在为大型语言模型(LLM)选择与调整优化器时,以下哪些论断在理论或工程实践中被广泛认可?

  • [x] Adam 的 Bias Correction 用于修正训练初期动量估计偏小问题,有助于更合理的学习率尺度
  • [x] 在“峡谷地形”中,相较于 SGD,Adam / RMSprop 可自适应缩放不同维度学习率,抑制振荡、加速收敛
  • [x] 对于 Adam / RMSprop,若某参数梯度长期稀疏,则其有效学习率会逐渐减小,从而更新更稳定
  • [x] 相比 SGD with Momentum,Adam / RMSprop 需要维护额外的一阶、二阶动量,显著增加显存占用

A. Adam:$\hat m_t = \frac{m_t}{1-\beta_1^t},\quad \hat v_t = \frac{v_t}{1-\beta_2^t}$, 对大模型早期训练非常关键

B. Adam/RMSprop 按维度归一化梯度,是其最经典的优势场景

C. 累积二阶矩$v_t$会抑制噪声更新,稀疏梯度下表现稳定

D. Adam 需要:参数\一阶动量 $m_t$\二阶动量 $v_t$,显存占用约为 SGD 的 2–3 倍

在某场景中,事件$A_1,A_2,A_3$构成样本空间的一个划分。满足$P(A_1)=0.2,\ P(A_2)=0.3,\ P(A_3)=0.5$。已知条件概率$P(B|A_1)=0.1,\ P(B|A_2)=0.4,\ P(B|A_3)=0.6$。下面哪些是正确的?

  • [ ] $P(A_2|B)\neq P(B|A_2)$
  • [x] $P(B)=0.44$
  • [x] $P(A_1|B)\approx0.045$
  • [x] $P(A_2|B)\approx0.273$

总概率:

贝叶斯公式:

以下优化算法,说法正确的是?

  • [x] L-BFGS 是二阶优化方法
  • [ ] Momentum 是二阶优化方法
  • [x] Adam 是一阶优化方法
  • [x] AdaGrad 是一阶优化方法
  • [x] AdamW 是一阶优化方法

A:使用 Hessian 的低秩近似,属于拟牛顿法(二阶) q

B:Momentum 仅使用一阶梯度 + 指数加权,不涉及 Hessian 或其近似

C:仅依赖一阶梯度,二阶矩是梯度平方的统计量,不是 Hessian

E:AdamW = Adam + decoupled weight decay,本质仍是一阶方法

搜索
匹配结果数:
未搜索到匹配的文章。