课题背景:
随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模型的理解,通过Reflection、RLHF等技术构建与真实环境交互的Agent,从而实现专家级别的广告账号管理,实现最高的ROI。同时广告Agent可探索根据用户的兴趣,个性化实现在线素材生产,最终实现广告素材和创意样式的千人千面,极大撬动用户和商品的匹配效率。
课题挑战:
...
参考资料:
一开始面对其的疑惑:
- 实例分割?和语义分割、以及其他分割任务有何区别?
- 为什么近年来的相关论文很少了?基本上集中在2020-2022年?目前还有在做实例分割的,多是3D开...
4/16:
感觉MoE此处还得修修补补。
4/15:
写了两天了,尊嘟很长。顺便diss一下下面的三篇blog。虽然算是比较偏算法讲解部分,但是还是有错误的。比如:
阅读全文
抽象MNIST作业,来自于GPT生成()
📄 实验报告:基于 ResNet50 的 MNIST 手写数字识别
实验概述
📌 任务目标:
本实验旨在通过构建深度学习模型,对 MNIST 数据集中 0~9 的手写数字图片进行识别和分类,训...
Yang, Chuanguang, et al. "Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition." arXiv preprint arXiv:2502.18510 (2025).
也是用了RL,但是不是很fit我的想法捏。
此处使用到的是知识蒸馏为主、关于奖励函...
Liu, Ziyu, et al. "Visual-rft: Visual reinforcement fine-tuning." arXiv preprint arXiv:2503.01785 (2025).
这个标题倒是很fit我的想法;但是他们根本就没写什么很突出的东西;
说是视觉上的RFL,实际上应该算是有关AI智能体的扩展。
因为使用的Agent是LLM;而且实际上也...
Zhu, Jiachen, et al. Transformers without Normalization.
一句话概括:我们使用tanh函数取缔了Transformer中的Normalization Layer。
芜湖,跑了100h的pretrain-model跑完了,acc在0.93左右。但是f1-score比较低,在0.2左右,可能与数据集的划分有关。

训练数据收集
初版:
一开始Agent是完全随机、乱给的\(\{s,a\}\),记录下来;然后做很多的episodes,得到相当多的数据。
评价每个Action是好还是不好
以评价的结果训练Agent: 阅读全文
CPEA
话说,感觉《一兆游戏》第一集25.50-30.00这一段配三个人非常easy。
还是先看论文吧
Backbone基本上是ResNet12,Dataset:miniImageNet , tieredImageNet, CIFAR-FS, and FC100。