AI 日报 2026-05-27：1-bit 扩散模型跑进浏览器，Qwen3.5 无审查版引爆本地推理圈

🚀 AI 前沿速递 (2026-05-27)

1. PrismML 发布 1-bit/三值 Bonsai Image 4B：3GB 扩散模型直接跑在浏览器 WebGPU 上

PrismML 开源了 Binary 和 Ternary Bonsai Image 4B——基于 1-bit/三值权重的文本生成图像扩散 Transformer。模型体积仅约 3GB（对比 FLUX.2 Klein 4B 的 ~16GB），可在浏览器端通过 WebGPU 100% 本地推理，Apache-2.0 许可。Hugging Face 上有官方模型集合。

💡 博主锐评：这才是真正的”模型民主化”——不是把大模型蒸馏成小模型，而是从权重表示层直接砍到 1-bit。WebGPU 推理意味着任何有浏览器的设备都能跑文生图，隐私敏感场景（医疗影像、设计稿）终于不用把 prompt 发到云端了。三值权重在推理时几乎全是整数加法，功耗优势会在移动端被放大一个数量级。

2. Qwen3.5 35B A3B 无审查版发布：完整保留 785 个 MTP，全量化格式一应俱全

社区成员 llmfan46 发布了 Qwen3.5-35B-A3B 的”uncensored heretic”版本，完整保留了原始模型的 785 个多 token 预测（MTP）头。提供 Safetensors、GGUF（含 NVFP4）、GPTQ-Int4 等全格式。这是一个 35B 总参数、3B 激活参数的 MoE 模型，推理成本极低。Reddit r/LocalLLaMA 上 384 赞、73 条讨论。

💡 博主锐评：785 个 MTP 头全部保留是关键——大多数量化/微调版本会砍掉 MTP 以简化部署，但这直接废掉了 Qwen3.5 的推理加速核心。MoE 架构 + MTP 让 35B 模型的推理速度逼近 7B 密集模型，配合 NVFP4 量化，单张 24GB 显卡即可满速运行。无审查版的高热度也说明：开源社区对”谁来决定模型该说什么”这个问题，投票已经很明确了。

3. Anthropic 开源 knowledge-work-plugins：16.7k Star 的 Claude Cowork 插件仓库

Anthropic 开源了面向知识工作者的 Claude Cowork 插件集合，今日 Star 增量 1718，全站已达 16.7k。仓库包含多种实用插件，覆盖文档处理、数据分析、信息检索等场景。

💡 博主锐评：Anthropic 在”Claude 作为工作平台”这条路上越走越坚定。插件生态的本质是把 Claude 从”聊天机器人”变成”操作系统”——当用户的工作流深度绑定到插件体系后，迁移成本会指数级上升。这招 Google Workspace 和 Microsoft 365 都用过，Anthropic 只是换了个 AI-native 的壳。

4. 自优化 Agent 实验：10 个任务子集上从 30% 飙到 90%

一位开发者分享了自优化 agentic pipeline 的实验结果：在 TerminalBench 的 10 个任务子集上，通过自动反馈循环将性能从 ~30% 提升到 ~90%。核心思路是让 Agent 自己分析失败案例、调整策略、重新执行。

💡 博主锐评：30% → 90% 的提升幅度惊人，但关键问题是泛化性——10 个任务的子集太小，不排除过拟合到特定任务模式。不过”Agent 自我迭代”这个范式本身是正确的方向：与其花人力调 prompt，不如让模型自己在 reward signal 下搜索最优策略。这本质上是 test-time RL 的工程化落地。

5. 中国限制阿里巴巴、DeepSeek 等 AI 人才出境

多家外媒报道，中国正在加强对阿里巴巴、DeepSeek 等机构 AI 研究人员的出境管控。Reddit 上引发 157 赞、121 条激烈讨论，社区担忧这将影响中国 AI 研究的国际合作与开源模型产出。

💡 博主锐评：地缘政治对开源生态的影响正在从”间接”变成”直接”。如果核心研究者无法参加 NeurIPS/ICML 等国际会议、无法在 GitHub 上自由协作，技术交流的摩擦成本会直接反映在模型质量和迭代速度上。但反过来看，这也可能加速中国建立独立的 AI 研究基础设施——类似当年半导体产业的”国产替代”逻辑。

🌟 今日开源明星：Dograh — 开源语音 AI 平台

GitHub: dograh-hq/dograh | ⭐ 3.3k（今日 +399）| TypeScript/Python

1. 为什么推荐它？

语音 AI 赛道目前被 Vapi、Retell、Bland 等 SaaS 平台垄断，痛点非常明确：

数据主权：所有通话录音、转录文本、对话逻辑都经过第三方服务器，合规风险极高
成本不可控：按分钟计费，高并发场景下费用线性增长，没有规模效应
厂商锁定：Workflow 定义、号码资源、模型选择全部绑定在供应商生态内
模型选择受限：大多数平台只支持特定几家 STT/TTS/LLM 供应商

Dograh 的核心价值主张是：把语音 AI 的完整技术栈（STT → LLM → TTS + 电话线路）开源自托管，让你在自己的基础设施上构建和运行语音 Agent，同时提供可视化 Workflow 编辑器和 MCP 原生集成。

2. 核心特性与技术栈

核心特性：

特性	说明
BYOK（自带 Key）	STT、TTS、LLM 全部支持自选供应商或本地模型
可视化 Workflow Builder	拖拽式构建通话逻辑，支持条件分支、函数调用
MCP 原生	Agent 可直接调用 MCP 工具，对接外部 API 和数据源
电话线路集成	内置 SIP/WebRTC 支持，含 CoTURN 配置模板
实时转录 + 录音	通话全程可录制、转录，提供公开 URL 访问
自托管部署	Docker Compose 一键部署，支持 DevContainer 开发环境

技术架构：

┌─────────────────────────────────────────────────────┐
│                    用户来电 / WebRTC                  │
└──────────────────────┬──────────────────────────────┘
                       │
                       ▼
┌──────────────────────────────────────────────────────┐
│              SIP / WebRTC Gateway (CoTURN)            │
└──────────────────────┬───────────────────────────────┘
                       │
                       ▼
┌──────────────────────────────────────────────────────┐
│                  Dograh Core Engine                   │
│  ┌──────────┐  ┌──────────┐  ┌───────────────────┐  │
│  │   STT    │→│   LLM    │→│       TTS         │  │
│  │ Whisper/ │  │ OpenAI/  │  │  ElevenLabs/     │  │
│  │ Deepgram │  │ Local    │  │  Local/Edge      │  │
│  └──────────┘  └────┬─────┘  └───────────────────┘  │
│                     │                                │
│              ┌──────▼──────┐                         │
│              │  MCP Tools  │  ← 外部 API / 数据库    │
│              └─────────────┘                         │
│  ┌──────────────────────────────────────────────┐   │
│  │         Workflow Builder (React Flow)         │   │
│  └──────────────────────────────────────────────┘   │
└──────────────────────────────────────────────────────┘
                       │
                       ▼
┌──────────────────────────────────────────────────────┐
│           API Layer (REST) + Dashboard                │
└──────────────────────────────────────────────────────┘

3. 实战：本地部署与使用指南

前置条件： Docker + Docker Compose，至少 4GB 可用内存。

# 1. 克隆仓库
git clone https://github.com/dograh-hq/dograh.git
cd dograh

# 2. 复制环境配置
cp .env.example .env

# 3. 编辑 .env，填入至少一个 LLM 和 STT/TTS 的 API Key
# 例如 OpenAI：
# OPENAI_API_KEY=sk-xxx
# 或者使用本地模型（需额外配置 Ollama/vLLM 端点）

# 4. 一键启动
docker compose up -d

# 5. 访问 Dashboard
# 默认地址: http://localhost:3000

# 6. 创建第一个语音 Agent
# 在 Workflow Builder 中拖拽节点：
#   [来电触发] → [STT 转录] → [LLM 推理] → [TTS 合成] → [播放回复]

使用 DevContainer 开发（推荐）：

1 2	# VS Code 打开项目后，按 F1 → "Dev Containers: Reopen in Container" # 自动配置 Node.js + Python 环境，无需手动安装依赖

4. 与竞品对比

维度	Dograh (自托管)	Vapi (SaaS)	Retell (SaaS)	LiveKit Agents (开源)
部署方式	Docker 自托管	云托管	云托管	自托管
模型选择	任意 STT/LLM/TTS	受限供应商	受限供应商	任意（需自行集成）
可视化 Workflow	✅ 内置	✅ 内置	✅ 内置	❌ 纯代码
MCP 工具集成	✅ 原生	❌	❌	❌
电话线路	✅ SIP/WebRTC	✅	✅	✅
数据主权	✅ 完全控制	❌ 第三方	❌ 第三方	✅ 完全控制
成本模型	基础设施成本	$0.05-0.15/min	按分钟计费	基础设施成本
上手难度	中等	低	低	高
社区活跃度	3.3k ⭐	成熟商业	成熟商业	15k+ ⭐

关键差异： Dograh 是目前唯一同时提供可视化 Workflow 编辑器 + MCP 原生集成的开源语音 AI 平台。LiveKit Agents 功能强大但纯代码驱动，对非开发者不友好；Vapi/Retell 易用但数据不在自己手里。

5. 适用场景

✅ 强烈推荐：

医疗/金融/法律等合规要求高的语音 AI 场景（数据不出域）
需要对接内部知识库、CRM、工单系统的企业语音助手
希望用本地 Whisper + 本地 LLM 实现全链路隐私保护的团队
语音 AI 产品原型验证（快速迭代 Workflow 逻辑）

⚠️ 一般推荐：

小型团队的客服机器人（SaaS 方案可能更省心）
纯 WebRTC 场景无电话线路需求（LiveKit Agents 也是好选择）

❌ 不推荐：

完全不想管基础设施的个人开发者（用 Vapi 更快）
需要全球电话号码资源的场景（Dograh 不提供号码，需自行对接 SIP trunk）

⚙️ 采集备注：HuggingFace 模型 API 返回 400 错误，机器之心 RSS TLS 握手失败，上述数据主要来自 Reddit r/LocalLLaMA、r/MachineLearning、Hacker News 及 GitHub Trending。