Schwertlilien
As a recoder: notes and ideas.

2025-4-22

知识点

Transformer

  1. 介绍transformer架构
  2. 详细说一下Decoder的因果注意力 QKV分别来自哪
  3. self-attention: Attention为什么要做scaled 不做会怎么样 为什么用根号d_k\(\sqrt{d_k}\)
  4. Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
  5. Attention的复杂度是多少?

LoRA

  1. LoRA是什么?有什么好处
  2. 知道PEFT吗 讲一下LoRA/微调用的LoRA介绍一下LoRA
  3. LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数

其他

  1. 知道RLHF吗?讲一下训练流程

  2. bn/ln(batch norm,layer norm,RMS norm)

  3. bn训练阶段和测试阶段区别,详细讲讲原理

  4. dropout原理,训练阶段和测试阶段区别,为什么

  5. 优化器的原理

  6. PPO的原理,损失函数

  7. 残差链接的概念

  8. 介绍一下LSTM,为什么LSTM能解决梯度消失或者梯度爆炸,LSTM全称叫长短时记忆神经网络,为什么叫“长短时”

  9. 梯度消失或者梯度爆炸

搜广推

  1. 推荐链路是怎么运作的 有哪些模块
  2. 如何做排序模型的迭代
  3. MAP(最大后验概率)和似然函数有什么关系?
  4. 什么情况下,MAP的损失函数可以用NMSE来计算?(高斯噪声)
  5. 推荐算法了解哪些?

数据结构

  1. 跳表和二叉树的区别是什么?
  2. b+ 树 和 b树的区别, 为什么innodb索引用b+ 不用b

手撕算法

  1. 单调递增数组nums,判断target是否在里面,要求复杂度为log(n)
  2. 最大连续子数列
  3. TOP K大的数
  4. 全排列(口述全排列 II)
  5. 合并 K 个升序链表
  6. 有序列表是否有数占了数组的一半以上
  7. 二叉树最近祖先
img

手撕ML/DL

  1. numpy实现全连接层
  2. 讲一下multi-head attention 用pytorch手撕一下 要可以实现cross attention的
  3. 手撕attention
  4. 手撕交叉熵
搜索
匹配结果数:
未搜索到匹配的文章。