搜索

Schwertlilien

As a recoder: notes and ideas.

2025-5-3-逃离北京计划(4)

9 个月前

一些回湖之后补档

早上-CityWalk

宁夏博物馆

家人们谁懂啊，早上9点开馆，刚好9点就...

2025-5-2-逃离北京计划(3)

9 个月前

悲，去旅游的话就是每天无法睡懒觉。平均起床时间都在6.多。今天早上起来的更早，5.20多，差不多要下火车了。

银川-西夏区

早上先去酒店放了放行李，休整了一下，顺便混了一顿酒店的早饭，打了车准备向西夏区的岩画、西夏陵进发。

今天一天的活动范围就在贺兰山山...

2025-5-1-逃离北京计划(2)

9 个月前

今天主要是在乌兰察布市的旁边的草原和火山转了转。(不安です)

乌兰察布

郭林锡勒草原

从早上6.30起床、然后7.10去吃早餐、...

2025-4-30-逃离北京计划(1)

9 个月前

嘿嘿，今天直接闪现呼和浩特。

总结一下：今天走了14.7km，我是神！

呼和浩特

早上因为脑子里在不停地循环“私はできない　できない　できない子”所以其实6.15就醒了。掂念着昨天晚上上课忘记带走地耳机，想着今天早上一定要早点起来去拿，结果起的也太早了吧（啊喂

2025-4-29

9 个月前

昨天跑了几个实验，得到了如下的结果：

detectron2

2025-4-24

9 个月前

其他

知道RLHF吗？讲一下训练流程

用于大模型（如ChatGPT）对齐人类价值的训练方法。

Supervised Fine-Tuning（SFT）：用高质量人类标注数据微调预训练模型

Reward Model（RM）训练
阅读全文
深度学习

2025-4-23-RNN/LSTM简介

9 个月前

面经

RNN（循环神经网络）

核心结构: RNN 的设计目的是处理序列数据（如文本、语音），其核心特点是隐藏层神经元之间存在循环连接，允许信息...

阅读全文

深度学习

2025-4-23-Transformer相关知识

9 个月前

面经

有关于Transformer的一些知识盘点。

Transformer
...
阅读全文
transformer
2025-4-23-梯度消失/爆炸
9 个月前

面经
梯度消失与梯度爆炸的定义
梯度消失（Vanishing...
阅读全文
深度学习
2025-4-22-字节面试准备
9 个月前

面经
知识点
Transformer

[ ] 介绍transformer架构

[ ] 详细说一下Decoder的因果注意力（也叫掩码自注意力）QK...
阅读全文
深度学习
 1…91011…22
搜索
匹配结果数:
未搜索到匹配的文章。
2022 - 2026 SchwertlilienPowered by Hexo & Theme Meow
总访问量 : 总访客数 :

CNN RNN