AI 日报 2026-05-27:1-bit 扩散模型跑进浏览器,Qwen3.5 无审查版引爆本地推理圈
🚀 AI 前沿速递 (2026-05-27)
1. PrismML 发布 1-bit/三值 Bonsai Image 4B:3GB 扩散模型直接跑在浏览器 WebGPU 上
PrismML 开源了 Binary 和 Ternary Bonsai Image 4B——基于 1-bit/三值权重的文本生成图像扩散 Transformer。模型体积仅约 3GB(对比 FLUX.2 Klein 4B 的 ~16GB),可在浏览器端通过 WebGPU 100% 本地推理,Apache-2.0 许可。Hugging Face 上有官方模型集合。
- 💡 博主锐评:这才是真正的”模型民主化”——不是把大模型蒸馏成小模型,而是从权重表示层直接砍到 1-bit。WebGPU 推理意味着任何有浏览器的设备都能跑文生图,隐私敏感场景(医疗影像、设计稿)终于不用把 prompt 发到云端了。三值权重在推理时几乎全是整数加法,功耗优势会在移动端被放大一个数量级。
2. Qwen3.5 35B A3B 无审查版发布:完整保留 785 个 MTP,全量化格式一应俱全
社区成员 llmfan46 发布了 Qwen3.5-35B-A3B 的”uncensored heretic”版本,完整保留了原始模型的 785 个多 token 预测(MTP)头。提供 Safetensors、GGUF(含 NVFP4)、GPTQ-Int4 等全格式。这是一个 35B 总参数、3B 激活参数的 MoE 模型,推理成本极低。Reddit r/LocalLLaMA 上 384 赞、73 条讨论。
- 💡 博主锐评:785 个 MTP 头全部保留是关键——大多数量化/微调版本会砍掉 MTP 以简化部署,但这直接废掉了 Qwen3.5 的推理加速核心。MoE 架构 + MTP 让 35B 模型的推理速度逼近 7B 密集模型,配合 NVFP4 量化,单张 24GB 显卡即可满速运行。无审查版的高热度也说明:开源社区对”谁来决定模型该说什么”这个问题,投票已经很明确了。
3. Anthropic 开源 knowledge-work-plugins:16.7k Star 的 Claude Cowork 插件仓库
Anthropic 开源了面向知识工作者的 Claude Cowork 插件集合,今日 Star 增量 1718,全站已达 16.7k。仓库包含多种实用插件,覆盖文档处理、数据分析、信息检索等场景。
- 💡 博主锐评:Anthropic 在”Claude 作为工作平台”这条路上越走越坚定。插件生态的本质是把 Claude 从”聊天机器人”变成”操作系统”——当用户的工作流深度绑定到插件体系后,迁移成本会指数级上升。这招 Google Workspace 和 Microsoft 365 都用过,Anthropic 只是换了个 AI-native 的壳。
4. 自优化 Agent 实验:10 个任务子集上从 30% 飙到 90%
一位开发者分享了自优化 agentic pipeline 的实验结果:在 TerminalBench 的 10 个任务子集上,通过自动反馈循环将性能从 ~30% 提升到 ~90%。核心思路是让 Agent 自己分析失败案例、调整策略、重新执行。
- 💡 博主锐评:30% → 90% 的提升幅度惊人,但关键问题是泛化性——10 个任务的子集太小,不排除过拟合到特定任务模式。不过”Agent 自我迭代”这个范式本身是正确的方向:与其花人力调 prompt,不如让模型自己在 reward signal 下搜索最优策略。这本质上是 test-time RL 的工程化落地。
5. 中国限制阿里巴巴、DeepSeek 等 AI 人才出境
多家外媒报道,中国正在加强对阿里巴巴、DeepSeek 等机构 AI 研究人员的出境管控。Reddit 上引发 157 赞、121 条激烈讨论,社区担忧这将影响中国 AI 研究的国际合作与开源模型产出。
- 💡 博主锐评:地缘政治对开源生态的影响正在从”间接”变成”直接”。如果核心研究者无法参加 NeurIPS/ICML 等国际会议、无法在 GitHub 上自由协作,技术交流的摩擦成本会直接反映在模型质量和迭代速度上。但反过来看,这也可能加速中国建立独立的 AI 研究基础设施——类似当年半导体产业的”国产替代”逻辑。
🌟 今日开源明星:Dograh — 开源语音 AI 平台
GitHub: dograh-hq/dograh | ⭐ 3.3k(今日 +399)| TypeScript/Python
1. 为什么推荐它?
语音 AI 赛道目前被 Vapi、Retell、Bland 等 SaaS 平台垄断,痛点非常明确:
- 数据主权:所有通话录音、转录文本、对话逻辑都经过第三方服务器,合规风险极高
- 成本不可控:按分钟计费,高并发场景下费用线性增长,没有规模效应
- 厂商锁定:Workflow 定义、号码资源、模型选择全部绑定在供应商生态内
- 模型选择受限:大多数平台只支持特定几家 STT/TTS/LLM 供应商
Dograh 的核心价值主张是:把语音 AI 的完整技术栈(STT → LLM → TTS + 电话线路)开源自托管,让你在自己的基础设施上构建和运行语音 Agent,同时提供可视化 Workflow 编辑器和 MCP 原生集成。
2. 核心特性与技术栈
核心特性:
| 特性 | 说明 |
|---|---|
| BYOK(自带 Key) | STT、TTS、LLM 全部支持自选供应商或本地模型 |
| 可视化 Workflow Builder | 拖拽式构建通话逻辑,支持条件分支、函数调用 |
| MCP 原生 | Agent 可直接调用 MCP 工具,对接外部 API 和数据源 |
| 电话线路集成 | 内置 SIP/WebRTC 支持,含 CoTURN 配置模板 |
| 实时转录 + 录音 | 通话全程可录制、转录,提供公开 URL 访问 |
| 自托管部署 | Docker Compose 一键部署,支持 DevContainer 开发环境 |
技术架构:
1 | ┌─────────────────────────────────────────────────────┐ |
3. 实战:本地部署与使用指南
前置条件: Docker + Docker Compose,至少 4GB 可用内存。
1 | # 1. 克隆仓库 |
使用 DevContainer 开发(推荐):
1 | # VS Code 打开项目后,按 F1 → "Dev Containers: Reopen in Container" |
4. 与竞品对比
| 维度 | Dograh (自托管) | Vapi (SaaS) | Retell (SaaS) | LiveKit Agents (开源) |
|---|---|---|---|---|
| 部署方式 | Docker 自托管 | 云托管 | 云托管 | 自托管 |
| 模型选择 | 任意 STT/LLM/TTS | 受限供应商 | 受限供应商 | 任意(需自行集成) |
| 可视化 Workflow | ✅ 内置 | ✅ 内置 | ✅ 内置 | ❌ 纯代码 |
| MCP 工具集成 | ✅ 原生 | ❌ | ❌ | ❌ |
| 电话线路 | ✅ SIP/WebRTC | ✅ | ✅ | ✅ |
| 数据主权 | ✅ 完全控制 | ❌ 第三方 | ❌ 第三方 | ✅ 完全控制 |
| 成本模型 | 基础设施成本 | $0.05-0.15/min | 按分钟计费 | 基础设施成本 |
| 上手难度 | 中等 | 低 | 低 | 高 |
| 社区活跃度 | 3.3k ⭐ | 成熟商业 | 成熟商业 | 15k+ ⭐ |
关键差异: Dograh 是目前唯一同时提供可视化 Workflow 编辑器 + MCP 原生集成的开源语音 AI 平台。LiveKit Agents 功能强大但纯代码驱动,对非开发者不友好;Vapi/Retell 易用但数据不在自己手里。
5. 适用场景
✅ 强烈推荐:
- 医疗/金融/法律等合规要求高的语音 AI 场景(数据不出域)
- 需要对接内部知识库、CRM、工单系统的企业语音助手
- 希望用本地 Whisper + 本地 LLM 实现全链路隐私保护的团队
- 语音 AI 产品原型验证(快速迭代 Workflow 逻辑)
⚠️ 一般推荐:
- 小型团队的客服机器人(SaaS 方案可能更省心)
- 纯 WebRTC 场景无电话线路需求(LiveKit Agents 也是好选择)
❌ 不推荐:
- 完全不想管基础设施的个人开发者(用 Vapi 更快)
- 需要全球电话号码资源的场景(Dograh 不提供号码,需自行对接 SIP trunk)
⚙️ 采集备注:HuggingFace 模型 API 返回 400 错误,机器之心 RSS TLS 握手失败,上述数据主要来自 Reddit r/LocalLLaMA、r/MachineLearning、Hacker News 及 GitHub Trending。




