2025-6-30

探讨Transformer中的QKV

此处是对Transformer-Transfomer Encoder Layer其中两处代码理解上存在的问题记录。

Q:在理解 Transformer 中位置编码中,为什么只有 qk 加上了位置编码,而 v 没有?

2025-6-28

今天主要是把detr的代码基本看完,还剩下transformer代码、matcher代码都应该比较好啃。

看代码的过程中,一开始看:我趣这么牛x,so elegant!现在开始逐渐看懂了。

下一步就是自己仿照着开始搭积木了。

现在目前有个问题就是:我原先想的是backbone=ViT的架构,现在想来这不现实。因为ViT说实话还是基于transfomer的架构,真没必要把这个单独拎出来、后面还是使用的transformer。

...

2025-6-27-红楼梦

对于此老师不做任何评价,且从问题角度来看吧,仁者见仁智者见智。

有关王熙凤毒设相思局的讨论

就拿我的一个疑问来说:“上回说王熙凤毒设相思局,贾瑞是死于自己的淫心,王熙凤只是教训了两回这个不老实的人,他还是不肯放下淫心,才害了相思病。为什么要说王熙凤狠毒呢?”

这个老师总觉得王熙凤作为更加有权势的一方、有很多方式来处置贾瑞;她不该先引诱贾瑞、再给他教训;最后导致了贾瑞的...

2025-6-26

时光是条长长的河,在这条河里,我们游过了年少,游过了青春。

image-20250626213823228

2025-6-24-zero/fewshot

Zero-shot/Few-shot

对,few-shot(少样本学习)zero-shot(零样本学习)确实是两个不同的概念,虽然它们都属于样本稀缺下的泛化能力研究,但本质区别挺明显的。

阅读全文
搜索
匹配结果数:
未搜索到匹配的文章。