#科研

论文阅读¶

约 439 个字预计阅读时间 2 分钟共被读过次

我也分享一下最近在读的一篇论文DouZero+，论文标题中的opponent model指的是将历史出牌数据输入到LSTM提取特征，再接多分类头，预测下家手里每种点数牌的张数分布； coach guide指的是在模型训练过程中用每个对局结果作为监督信号训练一个coach网络：将每场比赛的初始牌型输入，输出获胜概率，目的是利用这个网络初步筛选出获胜概率比较均衡的局来训练模型；本论文主要是基于DMC算法来训练的。
MVEB: Self-Supervised Learning with Multi-View Entropy Bottleneck
Diffusion Policy: 基于扩散模型的机器人策略学习
冷启动的信号启示：致敬“The Bitter Lesson”，耐心、观察与信号收集的智慧 - justopit
如何复现一篇 SIGGRAPH 论文
multimodal (vision-language) 的话可以看看
Compilers 隐式构造能提高 Sample Efficiency
Scaling Llama 3 Training with Efficient Parallelism Strategies
Generalized Language Models 技术性综述
Scaling Llama 3 Training with Efficient Parallelism Strategies
Generalized Language Models 技术性综述
多模态平衡学习 On-the-fly Modulation for Balanced Multimodal Learning 论文阅读总结 - kluster
LRU-K 论文阅读笔记
多任务论文阅读 M3GAT - kluster的文章 - 知乎
【论文阅读】非局部神经网络浅读（简介+代码）- SuXiaofei's Blog
Coaxial 论文笔记服务器cpu上用cxl type3设备代替ddr-dram的设计 - Exce1sior
Reward Hacking in Reinforcement Learning
Foundational Models for 3D Point Clouds A Survey and Outlook - wnc 的咖啡馆
【论文阅读】TOWARDS THE GENERALIZATION OF CONTRASTIVE SELF-SUPERVISED LEARNING（人工智能之自监督对比学习的泛化性理论）_towards the generalization of image quality assess - CSDN博客
用于决策的世界模型 -- 论文 World Models (2018) & PlaNet (2019) 讲解 - 伊犁纯流莱 - 博客园