)
你用AI做测试需求文档是完整的电商订单流程。AI生成了120条测试用例3000 行UI自动化脚本覆盖了正向下单、支付、退款流程。结果上线后一小时大量用户反馈无法完成订单支付。排查发现两个核心问题AI生成的用例漏了订单金额为0.01元的边界值、支付时网络中断重试这两个关键场景自动化脚本只实现了点击操作没有断言支付成功后订单状态变为待发货也没有处理支付超时的异常场景导致测试时没发现问题上线后直接引发生产故障。我接着追问了三个问题每一个都是面试必问第一你在审核AI生成的订单支付用例时怎么判断AI有没有漏测边界值异常场景第二自动脚本跑通就代表没问题吗你会具体检查脚本的哪些细节如何避免没有断言、没有异常处理的情况。第三这次故障后你会怎么优化AI测试的流程保证下次不再出现漏测脚本无效的问题没想到他张口就来我就把AI生成的用例大致扫了一遍看步骤完整、没有明显错误就够了。脚本能跑通就行没必要查那么细。故障后……下次让AI多生成几条用例再多看两眼就好了。听到这里我心里叹了口气。兄弟你这根本不是懂AI测试你就是拿AI当甩手掌柜。AI一天能生成几百条用例、几万行脚本你粗略扫一眼能发现藏在细节里的边界漏洞、断言缺失吗他不知道该怎么回答了面试到这里基本也就结束了。如果这道题你也不知道怎么回答可以一起加入「AI 进化社」学习里面涵盖了完整的能拿捏面试官的AI 测试必考题库和AI 测试项目实战技能覆盖软件测试开发全流程AI 赋能。这道题为什么能筛掉大部分人说实话这类题我面了不下二十几个人能答到点上的不超过三个。很多人有个误区觉得会用AI生成几条用例、让Copilot写几行Selenium脚本就叫AI测试了。大家一定要明白一个核心真相AI擅长批量生成模板化输出但永远不懂隐性业务不懂行业规则不懂项目历史问题。AI最大的隐患不是写不出用例而是特别容易产出看起来专业实际全是漏洞的内容。比如漏掉权限互斥场景、忽略流程依赖关系、边界值只写常规不写极值、异常场景只做表面覆盖、自动化脚本缺少关键断言、接口测试漏了参数加密和并发场景等。比如AI生成测试内容的常见翻车点翻车类型具体表现危害等级边界值漏测只写常规值不写极值如0.01元、999999.99元 高异常场景表面化写了网络异常但没写异常后的状态恢复 高权限互斥缺失没覆盖同时操作冲突如退款退货并发 高断言缺失脚本只点不验跑通≠通过 中流程依赖断裂步骤A失败后重试步骤B的状态没同步校验 中参数安全忽略接口测试漏了加密、防篡改、并发场景 中重复冗余同一个场景换说法生成多条浪费执行资源 低这也是初级测试和高级测试的核心分水岭前者只看 AI 产出的 “数量”后者能看透背后的风险用系统化方法驾驭 AI。真正玩转AI测试需要五层质量管控体系结合我多年的实战经验以及踩过的 AI 测试坑我始终认为想要真正用好 AI 测试既发挥它的效率优势又杜绝漏测、错测、无效用例上线绝不能 “甩手掌柜式” 用 AI而是要建立一套完整的 AI 测试全流程质量管控体系。这不是简单的 “让 AI 多生成几条用例、多看两眼”而是从需求到复盘的全链路把控每一步都要融入人的专业判断和业务经验。我把这套体系分为五个层级每一层都是面试高频考点也是实际工作能落地的标准流程。第一层业务需求前置拆解不给AI盲目发挥的机会很多人用AI测试最大的误区就是直接把一份笼统的需求文档丢给AI让它自由发挥生成测试用例。这本身就是最大的风险。AI看不懂文字背后的隐性规则也不知道你们项目过往的高频缺陷点。比如支付功能三个字AI理解的就是输入金额→确认支付→扣款成功。但它不会知道你们的支付通道有金额下限0.01元网络中断后需要支持3次重试每次间隔5秒支付超时后订单状态要回滚为待支付不能卡在支付中同一笔订单不能重复支付幂等性正确的做法是先人工拆解需求梳理出几大模块核心业务流程主路径必须100%覆盖次要分支流程异常分支、降级方案隐藏业务规则风控拦截、金额限制、时间窗口权限角色划分普通用户/VIP/管理员的不同逻辑边界极值清单最小值、最大值、空值、超长值异常故障场景网络中断、服务超时、数据不一致安全风控要求SQL注入、越权访问、敏感信息脱敏把这几大模块的结构化清单、历史Bug案例、业务禁止规则一起喂给AI限定生成范围限定覆盖维度。让AI在你划定的框架内产出而不是任由它随意编造业务逻辑。尤其是支付、订单、用户权限、数据隐私、资金流转这类核心模块必须提前做场景锁定强制 AI 全覆盖绝不让它随意编造业务逻辑。这一步的核心是 “人主导、AI 辅助”用人工的业务理解弥补 AI 的认知盲区。第二层给 AI 产出 “做减法”筛选有效内容AI产出的测试用例从来不是全部可用的。而是要学会快速分类筛选第一类标准正向用例常规流程、基础操作AI基本不会出错可以直接保留占比约60%-70%第二类待修改用例边界值不精准如写了输入负数但没写具体-1还是-0.01异常场景描述模糊如网络异常没定义异常类型步骤顺序错乱这类不用直接删掉人工微调后就能复用第三类直接废弃用例逻辑前后矛盾如前置条件说未登录步骤里却要求点击个人中心编造不存在的业务功能AI幻觉出来的菜单或按钮重复冗余同一个场景换说法写了3遍完全脱离实际业务如电商系统里出现火箭发射的测试步骤——别笑我真见过这类必须直接剔除绝对不能混入测试套件同时还要检查自动化脚本看脚本是否只实现了页面操作缺少结果断言缺少异常捕获缺少环境兼容适配这类脚本跑通也没有任何测试意义必须整改。这一步的关键是 “不迷信 AI 产出”用人工的专业判断筛选出真正有价值的内容避免无效用例占用测试资源。第三层多维度量化校验不靠感觉靠数据判断AI测试用例可不可靠不能凭肉眼感觉要有量化标准。首先核对需求覆盖率对照需求文档每一个功能点检查有没有遗漏、未覆盖的模块。其次统计反向用例、边界用例、异常用例的占比。正常业务不能只有正向用例没有反向和异常兜底。然后排查重复用例率、逻辑错误率、高危场景遗漏率。结合项目历史缺陷库校验AI有没有覆盖过往线上出过的同类bug具体供参考校验维度具体做法合格线需求覆盖率对照需求文档逐条映射看每个功能点有没有对应用例≥95%反向用例占比反向/异常用例占总用例比例≥30%边界用例数量每个数值型字段至少2个边界值最小、最大100%覆盖重复用例率语义重复的用例占比≤10%逻辑错误率业务逻辑错误或无法执行的用例占比≤5%高危场景遗漏率权限/并发/弱网/非法输入/参数篡改等场景0%历史缺陷覆盖率过去3个版本的线上BugAI用例能否覆盖≥80%除此之外还要重点核对AI最容易忽略的高危场景比如权限互斥越权访问、角色切换后的权限残留并发场景同一用户多设备登录、秒杀抢购弱网环境2G网络、网络切换、飞行模式非法输入SQL注入、XSS、路径遍历、特殊字符接口安全参数加密、签名验证、重放攻击这些是 AI 最容易忽略但最容易引发线上故障的点用数据做校验才是专业测试的做事方式。第四层三级审核用人工经验兜底守住核心风险AI 永远替代不了人的业务经验核心场景必须层层把关所以这里我建议的做法是建立 “初审 复核 终审” 的三级审核机制初审用自动化工具批量过滤重复用例、格式错误、逻辑冲突的内容节省人工时间复核由资深测试工程师负责逐行校验核心业务的边界、极值、异常流程尤其是支付、权限这类高危模块比如核对自动化脚本是否有断言、异常捕获、环境适配逻辑终审由业务负责人或测试总监确认重点把关隐性需求和特殊业务规则比如电商订单的 “跨平台退款规则”“节假日支付限额” 等 AI 无法理解的业务细节。三道关卡层层过滤能从根本上杜绝 AI 的错漏内容流入执行阶段这也是规避线上故障的关键。第五层复盘沉淀让 AI 越用越 “懂” 业务形成闭环AI 测试不是一次性行为一定要做长期沉淀优化。建议在每次项目结束后记录三类信息1、AI翻车案例库哪类场景AI容易漏测哪类业务AI容易编造规则哪类脚本容易出现断言缺失2、优质模板库提示词模板不同业务类型的标准Prompt用例模板正向/反向/边界的标准格式脚本规范模板断言、异常处理、日志的代码规范3、训练数据集把历史优质用例、业务规则、负面案例投喂给AI让AI越来越贴合团队业务生成内容越来越精准形成完整闭环需求拆解 → AI生成 → 分类筛选 → 量化校验 → 三级审核 → 落地执行 → 复盘沉淀 → 优化提示词 → 下一轮复用需求拆解AI生成分类筛选量化校验三级审核落地执行复盘沉淀优化提示词下一轮复用