AI 辅助开发实战:4 周 0→1 做付费 SaaS 的完整复盘与踩坑总结

发布时间:2026/6/28 3:02:34
AI 辅助开发实战:4 周 0→1 做付费 SaaS 的完整复盘与踩坑总结 这是一篇用 AI 协作从 0 到 1 做一个付费产品的完整复盘。整个开发周期约 4 周覆盖需求决策、CLAUDE.md 规则文件打磨、LLM 输出校验与护栏、部署上线全流程。先抛一个反直觉的数据这 4 周里真正敲代码的时间只有大约 2 小时占整个项目的 2%。那剩下的 98% 在哪我把这 4 周拆成了一张表工作占比性质思考 / 砍功能~1 周判断选场景、定 MVP 边界打磨 CLAUDE.md~3 天判断把规则显式化验证 / 兜底~3 天判断兜住 LLM 不确定性部署 / 上线其余执行 判断混合真正写代码~2 小时执行≈ 2%一句话省下的是执行多出来的是判断。代码变快了但我的活没变轻只是从写挪到了想。前 6 篇我拆过任务三要素、四象限、CLAUDE.md、护栏……这一篇不是再讲一遍方法是讲这些方法加起来把我 4 周的时间花成了什么形状。先把一件事说在前面免得这篇读起来像事后包装的成功学这不是一个我深思熟虑评估了一堆方向才选定场景的故事。选它之前我只是简单想过没认真比过别的场景。所以下面这 4 周准确说是选定一个方向之后时间都花在哪了的复盘不是如何选方向的方法论。第 1 周90% 的时间我在做砍功能的决策这一周结束的时候我的产出几乎没有代码。打开 git 看提交寥寥。真正的产出是一份清单——做什么、不做什么。最纠结的从来不是加什么是砍什么。手机号验证码登录、复杂的会员体系、语音和视频评分……每一个功能单独看都该有。一个正经产品怎么能没有手机号登录怎么能不做会员可每一个该有都会把上线日往后推一周。我在这上面来回犹豫了好几天。最后逼自己做减法MVP 只保留一条闭环——输入一段回答 → 给出 5 维度评分 → 生成优化版本 → 限制每天次数。其余全部进暂不实现。手机号登录暂不实现。会员系统暂不实现。语音评分暂不实现。怎么写清楚不做什么才刹得住车第 4 篇那篇 CLAUDE.md 范本里讲过这里不重复。这一周我没写几行代码但它决定了后面 3 周不白做。这种想清楚要什么的活AI 替不了。它能写出任何一个功能——手机号登录、会员系统、语音评分你让它写它都能写——但它不知道你这个阶段该不该要这个功能。要不要在第一版就背上一套会员系统这是一个关于你赌哪条路能最快验证的判断不是一个关于怎么实现的问题。如果放在三五年前这一周的价值会被一句还没开始写代码呢轻飘飘盖过去——好像没动键盘就等于没干活。但做完这次从0到1 我很清楚这一周才是真正难的部分。执行的时间被 AI 压缩没了判断的时间就顶了上来。门槛也跟着挪了位置——从会不会写变成了知不知道自己要什么。第 2 周CLAUDE.md 不是说明文档是协作规则文件第 2 周的大头是反复打磨 CLAUDE.md花了大约 3 天。一份给 AI 看的规则文件我改了一版又一版。一开始我有点犹豫——为一个文档花 3 天值吗值。因为它是我整个项目里唯一一处一次写、长期生效的杠杆。我把自己的判断一条条钉进去数据库操作的铁律、scope 的红线什么绝对不做、上线的验收标准。钉进去之后AI 在之后每一个会话里自动遵守我不用每次新开对话都重新叮嘱一遍记得加索引“别擅自扩功能”“没过验收不算完”。写 CLAUDE.md 的这 3 天本质上是把判断显式化的 3 天。我不是在写文档是在替未来每一次 AI 调用提前把决定做掉。这正是被 AI 提速之后多出来的时间——也是最该花、而不是最该省的时间。第一版我其实写砸了。写得像一篇产品介绍——“ScoreMe 是一个帮助用户打磨话术的工具目标用户是……”。结果 AI 照样自作主张该加的约束不加该停的地方不停。后来我把整份推倒改成边界 铁律 验收三块——明确写死哪些不能碰、哪些必须做、做完怎么算过关——它才真正开始听话。具体怎么写、分哪几节第 4 篇 CLAUDE.md 范本里讲过这里只说它在这 4 周里扮演的角色不重复写法。一句话CLAUDE.md 不是写给人看的说明书是写给 AI 看的、把你的判断固化下来的协作契约。花在它身上的 3 天省下了后面无数次重复叮嘱。第 3 周验证才是真正难的部分第 3 周我才真正开始写代码。然后发现一件有点扎心的事写代码这部分快得不像话。后端骨架——数据模型、API 接口、Docker Compose 编排——AI 几乎是脚手架级别地吐出来。我描述清楚要什么它把结构搭好我调一调。那2 小时 coding大头就花在这里。真正敲代码、拼功能的部分两个小时结束。真正慢的、真正难的是后面那 3 天的验证。ScoreMe 的核心是调大模型给回答打分而大模型有个躲不掉的毛病它不一定每次都按你要的格式返回。我需要的是结构化的 JSON好让后端解析、入库、展示。大部分时候它很乖但你不知道它什么时候不乖。上线前我测了一切正常。可上线后某天LLM 突然返回了一坨被 markdown 代码块包裹起来的内容——不是干净的 JSON是被包了一层壳的。后端解析当场挂掉。那一刻我才真正意识到把护栏写进 Prompt不等于保证。我在 Prompt 里礼貌地请它只返回 JSON它大部分时候答应但它不是合同是概率。我的验证还远远不够。于是这 3 天我都在干同一件事假设它一定会在某个我没料到的时刻不听话然后让系统不要崩。剥掉 markdown 外壳、校验 JSON 结构、解析失败就重试、重试期间不扣用户次数……这些机制具体怎么设计第 6 篇护栏与输出格式那篇讲过这里不展开。这 3 天里没有一行是功能代码全是兜底代码和反复测试。代码是 AI 写的快但假设它一定会出错、然后兜住它这套判断和设计是我的活慢。这就是从执行转向判断的时间最具体的样子写功能 2 小时兜住功能 3 天。第 4 周上线然后第一笔付费第 4 周的大头是部署、上线、和上线后的零碎调整。Docker Compose 一键起、Nginx 反代、配 HTTPS、解析域名。这些活有快有慢但都谈不上难——更多是耐心和细致的事。上线那一刻没有什么戏剧性。就是产品能打开了输入一段回答能拿到评分了数据能稳稳存进库了——对齐我在 CLAUDE.md 里写死的那条上线标准。然后完成了第一笔付费。从一个想法到第一笔付费4 周。回头看真正难、真正花时间的从来不是写代码那 2 小时。是前面那些想清楚要什么 / 立好规矩 / 兜住它出错的判断。代码只是判断的产物而且是越来越廉价的那个产物。现在这条产品线还在我手上每天跑着用户用得挺高频每天有上百次调用。它不是一个 demo是一个真的有人每天在用、并且愿意付费的东西。关键学到的 5 件事把这 4 周压成一张可以截图带走的判断清单5 条从执行层一路收到认知层1. 代码不再是瓶颈。2 小时的 coding 证明了把功能写出来从来不是从0到1里最难的那部分。如果你还觉得做产品 写代码这个等式已经过期了。2. 花在 CLAUDE.md 上的时间最值。把你的判断写成一份长期生效的规则比每次盯着 AI 改要省力得多。这是被 AI 提速之后最该花、而不是最该省的时间。3. 验证不是收尾是主体工作。LLM 的不确定性必须靠系统兜住不能靠运气。兜底的时间会远多于写功能的时间——做好这个心理准备。4. 门槛变了。从会不会写变成了知不知道自己要什么。AI 能写任何东西但它替不了你去定义要什么、不要什么。5. 时间没省下是搬了家——从执行搬到了判断。而判断密度变高恰恰是好事。AI 没有抢走工程师的工作它把工程师从机械执行里捞了出来还回了那个本该做判断的位置。这 5 条说的其实是同一件事用 AI 写代码确实快了但工程师的工作其实变难了。因为以前写得慢大把时间消耗在 coding 上现在写得快了如何约束、如何设计、如何验证这些需要大量思考的事就浮了上来。时间没有被省下只是从执行转移到了判断。这不是坏消息。这是工程师这份职业被 AI 推回到它本该是的样子。这套判断跑出来的产品就是 ScoreMe——一个用 AI 帮你打磨面试和销售话术的工具输入一段回答给你 5 维度评分 一版优化后的答案。如果你想看这套方法跑出来的产品长什么样可以试一下每天 3 次免费体验 ScoreMe →本系列每两周一篇这一篇是第一季的收官。第二季写什么欢迎在评论区投一票A2 小时 coding 是怎么做到的——动手写之前我到底喂给了 AI 什么让真正敲代码只剩 2 小时。Bcopyright_agent 实战——一个下午用 AI 交付一套软著文档生成全程记录看这套方法能不能换个项目照样跑。CScoreMe 第二阶段的产品决策——下一步该做什么、不做什么我怎么拍这个板。关于作者AI 工程落地工程师10 年系统工程经验。ScoreMeAI 评分官独立 builder专注用 AI 协作把想法快速变成可运行的付费产品。本系列分享我在这条路上沉淀的方法论与踩坑复盘。试用 ScoreMe → aiscoreme.com