论文阅读¶
约 439 个字 预计阅读时间 2 分钟 共被读过 次
- 我也分享一下最近在读的一篇论文DouZero+,论文标题中的opponent model指的是将历史出牌数据输入到LSTM提取特征,再接多分类头,预测下家手里每种点数牌的张数分布; coach guide指的是在模型训练过程中用每个对局结果作为监督信号训练一个coach网络:将每场比赛的初始牌型输入,输出获胜概率,目的是利用这个网络初步筛选出获胜概率比较均衡的局来训练模型;本论文主要是基于DMC算法来训练的。
- MVEB: Self-Supervised Learning with Multi-View Entropy Bottleneck
- Diffusion Policy: 基于扩散模型的机器人策略学习
- 冷启动的信号启示:致敬“The Bitter Lesson”,耐心、观察与信号收集的智慧 - justopit
- 如何复现一篇 SIGGRAPH 论文
- multimodal (vision-language) 的话可以看看
- Compilers 隐式构造能提高 Sample Efficiency
- Scaling Llama 3 Training with Efficient Parallelism Strategies
- Generalized Language Models 技术性综述
- Scaling Llama 3 Training with Efficient Parallelism Strategies
- Generalized Language Models 技术性综述
- 多模态平衡学习 On-the-fly Modulation for Balanced Multimodal Learning 论文阅读总结 - kluster
- LRU-K 论文阅读笔记
- 多任务论文阅读 M3GAT - kluster的文章 - 知乎
- 【论文阅读】非局部神经网络浅读(简介+代码)- SuXiaofei's Blog
- Coaxial 论文笔记 服务器cpu上用cxl type3设备代替ddr-dram的设计 - Exce1sior
- Reward Hacking in Reinforcement Learning
- Foundational Models for 3D Point Clouds A Survey and Outlook - wnc 的咖啡馆
- 【论文阅读】TOWARDS THE GENERALIZATION OF CONTRASTIVE SELF-SUPERVISED LEARNING(人工智能之自监督对比学习的泛化性理论)_towards the generalization of image quality assess - CSDN博客
- 用于决策的世界模型 -- 论文 World Models (2018) & PlaNet (2019) 讲解 - 伊犁纯流莱 - 博客园