2025-7-5

7 个月前

大模型面试60问

阅读全文

2025-7-4

7 个月前

这个呢，是我在库里面检索了一下，觉得比较有代表性的书籍，四个部分体现了从时代，技术，具体的操作，理想升华的意思

一
第四次浪潮
奇点临近
AI时代:图说人工智能七十年

二

...

阅读全文

2025-7-3

7 个月前

感觉略微有点衰了——

明天需要完成的三个任务：

Deepseek MoE的模块解析，速！
下午两点开组会，主要是不知道说些啥？？
下午7点DDL，要做pre，也就是PPT完全没写。

阅读全文

2025-7-1-当我穿越进了红楼

7 个月前

实际上是打算写的大作业。相比于王熙凤、林黛玉等主角，普通丫鬟的生活与命运往往被忽视，但她们的命运其实正是封建等级制度最直接的受害者，能更真实地反映《红楼梦》背后的社会结构与人性悲剧。

当我穿越进了红楼，看看我是什么角色——

什么？不是宝黛、不是公子小姐、不是主子，我只是个小丫鬟？还是最最普通的从未在原著中出现过姓名的三等丫鬟？

阅读全文

漫谈

2025-7-1

7 个月前

Q：在detrtgt2 = self.self_attn(q, k, value=tgt2, attn_mask=tgt_mask,key_padding_mask=tgt_key_padding_mask)中这里根本就没传入mask相关的参数，那是不是没有做mask mla？？？

阅读全文

每天の学习日记

2025-6-30

7 个月前

探讨Transformer中的QKV

此处是对Transformer-Transfomer Encoder Layer其中两处代码理解上存在的问题记录。

Q:在理解 Transformer 中位置...

阅读全文

每天の学习日记

2025-6-28

7 个月前

今天主要是把detr的代码基本看完，还剩下transformer代码、matcher代码都应该比较好啃。

看代码的过程中，一开始看：我趣这么牛x，so elegant！现在开始逐渐看懂了。

下一步就是自己仿照着开始搭积木了。

现在目前有个问题就是：我原先想的是backbone=ViT的架构，现在想来这不现实。因为ViT说实话还是基于transfomer的架构，真没必要把这个单独拎出来、后面还是使用的transformer。

一般...

阅读全文

每天の学习日记

2025-6-27-红楼梦

7 个月前

对于此老师不做任何评价，且从问题角度来看吧，仁者见仁智者见智。

有关王熙凤毒设相思局的讨论

就拿我的一个疑问来说：“上回说王熙凤毒设相思局，贾瑞是死于自己的淫心，王熙凤只是教训了两回这个不老实的人，他还是不肯放下淫心，才害了相思病。为什么要说王熙凤狠毒呢？”

阅读全文

漫谈

2025-6-27-对于nn.Embeddding的理解

7 个月前

对于`nn.Embeddding`的理解

nn.Embedding(num_embeddings, embedding_dim)是一个索引表。根据输入，给出对应索引的向量。

nu...

阅读全文

每天の学习日记

`2025-6-26-会议记录`

7 个月前


工作

`会议记录`


今天又开了一下会，感觉那位大四的同学基础确实有一些薄弱。既然是数学专业，依我之见...

阅读全文

目标检测

1…678…22

搜索

匹配结果数:

未搜索到匹配的文章。