15 小时前
探讨Transformer中的QKV
此处是对Transformer-Transfomer Encoder Layer其中两处代码理解上存在的问题记录。
Q:在理解 Transformer 中位置编码中,为什么只有 q
和
k
加上了位置编码,而 v
没有?
3 天前
今天主要是把detr的代码基本看完,还剩下transformer代码、matcher代码都应该比较好啃。
看代码的过程中,一开始看:我趣这么牛x,so elegant!现在开始逐渐看懂了。
下一步就是自己仿照着开始搭积木了。
现在目前有个问题就是:我原先想的是backbone=ViT的架构,现在想来这不现实。因为ViT说实话还是基于transfomer的架构,真没必要把这个单独拎出来、后面还是使用的transformer。
...4 天前
对于此老师不做任何评价,且从问题角度来看吧,仁者见仁智者见智。
有关王熙凤毒设相思局的讨论
就拿我的一个疑问来说:“上回说王熙凤毒设相思局,贾瑞是死于自己的淫心,王熙凤只是教训了两回这个不老实的人,他还是不肯放下淫心,才害了相思病。为什么要说王熙凤狠毒呢?”
这个老师总觉得王熙凤作为更加有权势的一方、有很多方式来处置贾瑞;她不该先引诱贾瑞、再给他教训;最后导致了贾瑞的...
4 天前
对于nn.Embeddding
的理解
nn.Embedding(num_embeddings, embedding_dim)
是一个索引表。根据输入,给出对应索引的向量。
num_embeddings
→ 索引的长度。embedding_dim
→ 索引idx对...
5 天前
会议记录

今天...
5 天前
时光是条长长的河,在这条河里,我们游过了年少,游过了青春。

7 天前
Zero-shot/Few-shot
对,few-shot(少样本学习)和zero-shot(零样本学习)确实是两个不同的概念,虽然它们都属于样本稀缺下的泛化能力研究,但本质区别挺明显的。