🚀 AI 前沿速递 (2026-06-11)

1. Show HN: AI agents play SimCity through a REST API
一个开源项目让 AI Agent 通过 REST API 完整操控 SimCity 游戏——从城市规划、交通调度到灾害响应,Agent 在虚拟城市中执行多步决策闭环。该项目证明 Agent 已从”文本/代码世界”跨越到”仿真世界”,Agent 不再需要 UI 截图或键盘输入,而是通过结构化 API 与复杂系统交互。

  • 💡 博主锐评:SimCity 的 REST API 本质上是一个 200+ 端点的状态机,这比大多数真实企业系统的 API 文档还清晰。当 Agent 能在这种结构化仿真中表现良好,迁移到 API 驱动的真实世界自动化(如 K8s 集群管理、CI/CD 流水线编排)的门槛已经不存在了。真正的瓶颈是仿真和真实环境的 sim-to-real gap。

2. Launch HN: Webhound (YC S23) – Research agent that builds datasets from the web
YC -backed 团队 Webhound 推出自动化网页研究 Agent,能从任意 URL 集合中提取结构化数据、交叉验证信息、生成标注数据集。核心差异化在于它不是简单的爬虫——它在每个网页上执行”人类式阅读”,通过多轮推理理解上下文关系后再提取字段。

  • 💡 博主锐评:数据集构建是 AI 产业链中最苦最累的环节。Webhound 切入的是”数据标注 2.0”——用 Agent 替代人类标注员做初步结构化,人类只做最终审核。但要注意:这种”人式阅读”模式在大规模场景下的单位数据成本($ per extracted record)是否真能低于众包标注平台(如 Scale AI),目前尚无公开数据支撑。

3. Show HN: Context Gateway – Compress agent context before it hits the LLM
Compresr-ai 开源了 Context Gateway,一个 Agent 中间件层,在请求到达 LLM 之前自动压缩、筛选和重排上下文窗口内容。支持 RAG 文档去重、对话历史摘要、工具输出精简等策略,实测可减少 60-80% 的 context token 消耗。

  • 💡 博主锐评:这是 Agent 基础设施中被低估的关键一层。当前大多数 Agent 框架把”上下文管理”当作 LLM provider 的责任,结果就是每次工具调用都把完整 history + full tool output 塞给 LLM。Context Gateway 的思路类似于 CDN 对网页的压缩——它在应用层和 LLM 之间建立了一个”上下文处理管道”,对长期运行的 Agent(如每天持续工作的 Research Agent)来说,token 成本可下降一个数量级。

4. Show HN: Gambit – An open-source agent harness for building reliable AI agents
Bolt Foundry 开源了 Gambit,一个专注于 Agent 可靠性的框架。核心卖点不是”怎么写 Agent”,而是”怎么写不会崩的 Agent”——内置重试策略、降级路径、状态持久化、执行超时和结果验证。它把 Agent 从”实验性玩具”往”生产可用”推了关键一步。

  • 💡 博主锐评:Agent 领域最缺的不是框架,而是”失败处理”的最佳实践。Gambit 的差异化在于它承认 Agent 一定会出错(幻觉、工具调用失败、API 超时),然后系统性地提供容错方案。这比又一个”让 Agent 帮你写代码”的框架务实得多。值得关注的是它的状态持久化策略——Agent 崩溃后从哪恢复,直接决定 Agent 能否在服务器上跑三天不中断。

5. Show HN: Cobalt – Unit tests for AI agents, like Jest but for LLMs
Basalt AI 开源了 Cobalt,为 LLM Agent 编写单元测试的框架。类似于 Jest 之于前端,Cobalt 允许开发者为 Agent 的每个工具调用、每条推理链编写可重复的测试用例,支持 mock LLM 响应、验证输出结构、断言工具调用顺序。

  • 💡 博主锐评:Agent 测试是 AI 工程化的最后一块拼图。当前 Agent 代码库普遍缺乏测试,因为”LLM 输出是非确定性的”成了不写测试的万能借口。Cobalt 的思路很聪明——不测试 LLM 本身,而是测试 Agent 的*结构:工具调用顺序是否正确?边界情况下是否调用了错误的工具?这个框架的成败取决于它能否在”严格的测试覆盖率”和”LLM 的灵活性”之间找到平衡点。*

🌟 今日开源明星:mvanhorn/last30days-skill

GitHub: mvanhorn/last30days-skill | ⭐ 39,075 stars(今日 +2,535,全站增速断层第一)| Python

1. 为什么推荐它?

这个项目在过去 24 小时内暴涨 2,535 颗 star——不是 200,不是 500,是 2,500+。在 GitHub Trending 的历史上,单日增速超过 2,000 star 的项目屈指可数。它的成功信号极其清晰:市场正在渴求”一站式 AI 研究技能”

痛点分析:当前 AI 研究者在收集多源信息时,需要分别在 Reddit、X (Twitter)、YouTube、Hacker News、Polymarket 和通用 Web 之间手动切换、抓取、筛选、汇总。这个过程平均耗时 2-4 小时,且信息碎片化严重。last30days-skill 解决的核心问题是——让一个 AI Agent 在后台自动执行这个全流程,并在 5 分钟内输出结构化调研报告

它不是另一个聊天机器人,而是一个多源情报采集与分析管道:从 6 个数据源拉取近 30 天的热点内容,按相关性、影响力、时效性排序,再由 LLM 进行跨源交叉分析和主题归纳。

2. 核心特性与技术栈

维度 说明
数据源 Reddit (多 subreddit)、X/Twitter、YouTube (视频摘要)、Hacker News、Polymarket、通用 Web
时间窗口 可配置(默认 30 天,支持滚动窗口)
分析能力 跨源主题归纳、趋势识别、观点对立检测
输出格式 结构化 Markdown 报告(含引用链接和置信度评分)
技术栈 Python 3.11+、Hermes Agent 框架、OpenAI/Anthropic LLM
部署方式 单文件 SKILL.md 部署,无需 Docker 或额外服务

架构简图:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
┌─────────────────────────────────────────────────┐
│ last30days-skill │
├─────────────────────────────────────────────────┤
│ Topic Input │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ Multi-Source │ ◄── 6 数据源适配器 │
│ │ Collector │ Reddit / X / YT / HN │
│ └────────┬─────────┘ / Polymarket / Web │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ Cross-Source │ ◄── 去重 + 相关性评分 │
│ │ Analyzer │ + 主题聚类 │
│ └────────┬─────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ Report │ ◄── Markdown 结构化输出 │
│ │ Generator │ + 引用链接 + 置信度 │
│ └──────────────────┘ │
└─────────────────────────────────────────────────┘

3. 实战:本地部署与使用指南

前置条件:

1
2
3
4
5
# 确保 Python 3.11+ 已安装
python3 --version

# 安装依赖
pip install --break-system-packages openai anthropic feedparser beautifulsoup4

方式一:直接在 Hermes Agent 中使用(推荐)

1
2
3
4
5
6
# 克隆 skill 到 ~/.hermes/skills/
mkdir -p ~/.hermes/skills/research
git clone https://github.com/mvanhorn/last30days-skill.git ~/.hermes/skills/research/last30days

# 在 Hermes Agent 对话中直接使用
# 输入: "帮我调研过去30天关于 'AGI 对齐' 的所有重要讨论和文章"

方式二:独立脚本运行

1
2
3
4
5
6
7
8
# 运行调研(指定主题)
python3 last30days.py --topic "openai gpt-5" --days 30

# 运行调研(指定数据源)
python3 last30days.py --topic "quantum computing" --sources reddit,hn,youtube

# 自定义输出格式
python3 last30days.py --topic "AI agents" --output json --top 50

方式三:配置 API Keys

1
2
3
4
5
6
7
8
# 设置 LLM 提供商
export OPENAI_API_KEY="sk-xxx"
# 或
export ANTHROPIC_API_KEY="sk-ant-xxx"

# 设置 X/Twitter API (可选)
export TWITTER_API_KEY="xxx"
export TWITTER_API_SECRET="xxx"

4. 与竞品对比

维度 last30days-skill Google Alerts Feedly + AI ChatGPT 搜索
数据源覆盖 6 源(Reddit/X/YouTube/HN/Polymarket/Web) Web + News News + RSS Web + 有限 News
跨源分析 ✅ 内置 ❌ 无 ❌ 仅聚合 ✅ 基础
时效窗口 可配置(30 天/7 天/自定义) 实时 实时 实时
结构化输出 Markdown/JSON + 引用链接 Email Web UI 聊天格式
运行成本 按 LLM token 计费(~$0.5-2/次) 免费 $6-15/月 ChatGPT Plus $20/月
隐私性 本地运行,数据不经过第三方 Google 可控 Third-party OpenAI 可控
可定制性 高(Python 可修改)

5. 适用场景

强烈推荐:

  • AI 行业研究者 / 技术博主:每天节省 2-4 小时的信息收集时间,输出结构化报告
  • 投资决策者:跨 Polymarket + Reddit + X 的多源交叉验证,辅助市场情绪判断
  • 创业团队:快速扫描竞品动态、技术趋势和社区反馈

⚠️ 一般推荐:

  • 学术研究者:作为文献调研的补充(非主要数据来源),建议搭配 arXiv 搜索使用
  • 普通用户:如果只需要偶尔查询,ChatGPT 搜索更省事

不推荐:

  • 需要实时推送的场景(该工具为 pull 模式,非 push 模式)
  • 对数据隐私极度敏感且不愿暴露 API Key 的场景

⚙️ 采集备注:HuggingFace API 和 Reddit 数据源在运行时报 400/403 错误,本报告基于 Hacker News、GitHub Trending 数据源完成筛选。GitHub Trending 中 mvanhorn/last30days-skill 单日 +2,535 stars 的增速为全站断层第一,值得深度关注。