约 393 个字 预计阅读时间 2 分钟 共被读过 次
- “一生一芯”
- Owner avatar anylinuxfs
- VIT-DBNet
- ASVR: Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better
- paperlists
- npcypy
- DDAO: An Open-source RL System from ByteDance Seed and Tsinghua AIR
- SpatialLM-Llama-1B
- Simple PyTorch Implementations of Deep RL Algorithms for Continuous Control Research
- open-source agent on SWE-Bench Verified by combining Claude 3.7 and O1
- ReaderLM-v2
- nkuwiki 开源·共治·普惠的南开百科
- RenderFormer
- LeRobot - Build Your Own SO-101 Robot!
- ST-GCN
- CAMEL x MCP: Making AI Agents Accessible to All Tools
- Playwright MCP
- 深入探索MCP与AI工具的未来
- Kigland OpenHPC
- Repomix
- 深度学习模型编译框架TVM概述
- operative.sh web-eval-agent MCP Server
项目/Paper¶
Tiamat AI联合NUS、bytedance等单位发布PhotoDoodle,专为艺术创作设计。它通过两阶段训练策略实现高效定制化编辑:先在大规模数据上预训练通用模型OmniEditor,再通过少量艺术家提供的图像对(20-50组)微调EditLoRA模块,精准捕捉个性化风格。其核心技术位置编码克隆可精确记录原始图像像素位置,确保添加的装饰元素(如卡通怪兽、魔法特效)与背景在透视、光影上无缝融合,同时保持背景零失真。该工具支持多模态指令控制(如“让猫变白”“添加粉色烟雾”),并开源了包含6种艺术风格、300+样本的数据集及代码,为艺术创作与AI技术融合开辟了新路径。
TD;DR: PhotoDoodle是一个图像编辑框架,可以通过少量设计师给定的“before-after”图片,定制专属风格的图像编辑器。图像编辑也迎来了自己的LoRA moment。