Schwertlilien
归档
分类
标签
关于
搜索
归档
分类
标签
关于
Schwertlilien
As a recoder: notes and ideas.
归档
2025
四月
2025-4-23-梯度消失/爆炸
梯度消失与梯度爆炸的定义梯度消失(Vanishing Gradient) 现象:反向传播中,梯度随着网络层数或时间步长增加而指数级减小,导致浅层...
2025-04-23
2025-4-22-字节面试准备
知识点Transformer [x] 介绍transformer架构 [x] 详细说一下Decoder的因果注意力 (也叫掩码自注意力)QKV分...
2025-04-22
2025-4-22-数据集收集工作推进
wow! A good question is How to collect data to build a dataset. 现在要完成下面...
2025-04-22
2025-4-20-论文评审
Q: 开放词汇vs开放集vs开放世界?? A: 开放词汇的解释。 Open-Set Object Detection:模型不仅需要识别图像中的...
2025-04-20
2025-4-18-字节广告
课题背景: 随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模...
2025-04-18
2025-4-18-实例分割调研
参考资料: IBM-对实例分割的介绍 一开始面对其的疑惑: 实例分割?和语义分割、以及其他分割任务有何区别? 为什么近年来的相关论文很少了?...
2025-04-18
2025-4-13-再探DeepSeek之MLA+MoE
4/16: 感觉MoE此处还得修修补补。 4/15: 写了两天了,尊嘟很长。顺便diss一下下面的三篇blog。虽然算是比较偏算法讲解部分,但...
2025-04-13
2025-4-12-MNIST实验报告
抽象MNIST作业,来自于GPT生成() 📄 实验报告:基于 ResNet50 的 MNIST 手写数字识别实验概述📌 任务目标:本实验...
2025-04-12
2025-4-11-Yang-arxiv-2025
Yang, Chuanguang, et al. “Multi-Teacher Knowledge Distillation with Rei...
2025-04-11
2025-4-11-Liu-arxiv-2025
Liu, Ziyu, et al. “Visual-rft: Visual reinforcement fine-tuning.” arXiv...
2025-04-10
1
…
5
6
7
…
18
搜索
匹配结果数:
未搜索到匹配的文章。