北京 · 2027 届 · AI 产品 / Agent 方向

张靖远AI 产品经理 · Agent 评测与产品系统

我关注的不是 AI 能不能生成,而是生成之后怎么验收、怎么改、坏了怎么恢复。过去两年做了四个项目,都在拆这件事。

北邮数字媒体技术,2027 届。

本科前两年写代码、做 Unity 项目、参加比赛。后来发现我更想弄清楚的不是「怎么实现」,而是「该不该做」和「做完了怎么验收」。于是转向产品。

现在在 DeepWisdom 做 Agent 评测实习,业余做开源项目(Agent 架构 Notebook)和技术写作(评测方法论、LLM 记忆系统分析)。也在给 hanniman 的 AI 日报当志愿编辑,练对信息密度的判断。

在找 AI 产品方向的实习或校招机会。Agent、评测、生成式应用都是我想深入的方向。

200+并行 Agent 评测任务
70%人工评测工作量降低
23%→61%AI SaaS 新用户 7 日留存
2 项软件著作权

02 / Product judgment

我关心的不是“能否生成”,而是“如何稳定交付”。

01

证据优先

最终输出不够,要同时保留轨迹、工具状态和中间证据,才能归因。在 DeepWisdom 评测系统里,这意味着每个评分都绑定可回放的 Trace。

02

恢复即产品

长任务一定会失败。快照、回放、局部重试和编辑不是补丁,是应在 PRD 阶段就定义的核心需求。DeepWisdom 的 Replay / Rollback / Retry / Edit 就是这么来的。

03

评测驱动迭代

评测结果应回流到提示词、Agent 策略和训练数据,让每个版本可比较、可回归。这也是我写评测方法论长文的出发点——想把这个闭环拆清楚。

04

人与 AI 明确分工

人负责范围、取舍和风险;AI 在约束内生成和验证,不把决策藏在自动化里。FunloomAI 选架构时按这个原则拆:稳定环节用模板,理解和修改环节才用模型。

05

用户与模型双指标

留存和转化衡量用户价值,完整性和指令遵循衡量生成质量。FunloomAI 里这两组同时跟踪,少一边都不行。

06

可控性优先

选方案先比可控性和成本,不追架构复杂度。珍珠项目里光泽分类用 SVM 不用深度学习,因为可解释性是这个场景的刚需。

03 / Open source & writing

用可运行实作和长文,校验我对 AI 产品的判断。

开源仓库整理了 Reflection、Tool Use、ReAct、Planning 等 Agent 架构模式和评测机制;技术写作聚焦评测方法论和 LLM 记忆系统。

  • Open Source
    all-agentic-architectures

    用可运行的 Notebook 组织现代 Agent 架构和评测机制。不是教程,是自己学一个跑一个的笔记。

  • Article
    AI 评测系统:从数据集到生产反馈闭环

    从 Task 定义、数据集构建拆到 Rubric 设计、Judge 校准和 Report 回流。写的时候发现,评测最难的部分不是打分,是定义「什么算对」。

  • Article
    LLM 记忆系统技术分析

    拆 ChatGPT、Claude、Gemini 在存储粒度、召回策略和隐私取舍上的差异。同样是「记住用户」,产品逻辑完全不同。

  • Tools
    RSSWebReader · x-article-formatter · jobpilot-cn

    RSS 抓信息源、长文排版、AI 岗位追踪。三个小工具,解决自己的具体问题。

04 / Recognition

阶段性认可

  • 挑战杯北京市一等奖 — 数字媒体数据集成与管理系统
  • 中国国际大学生创新大赛北京赛区一等奖 — 珍珠光泽评估与 3D 商品设计
  • 全国大学生电子商务“三创赛”省级一等奖
  • 北京邮电大学三等奖学金

05 / Contact

在找 AI 产品方向的实习和校招机会,也欢迎聊 Agent、评测或技术写作。

北京 · zjy888@bupt.edu.cn · GitHub @to-real · X @Potatoloogs