
IT策士 10余年一线大厂经验专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章助你少走弯路。上一篇文章我们回顾了AI从规则到生成的演进并提到了三种AI形态判别式、生成式、推理型。很多同学会问“不都是大模型吗为什么还要分类” 答案是不同类型的AI出错的方式完全不同测试方法也截然不同。这篇文章就用代码和实例帮你把三者的边界划清楚并给出各自的测试重点清单。一、用一句话说清三种AI判别式是“看山是山”生成式是“看山画山”推理型是“看山想山——推演山是怎么形成的”。下面我们分别用 Python 代码演示三类 AI 的工作模式并分析测试重点。二、判别式 AI分类与回归2.1 核心原理判别式模型学习的是决策边界给定输入 X输出一个明确的标签或数值。它的输出是确定性的——同一个输入同一个结果。典型任务垃圾邮件检测、情感分析、图像识别、信用评分。2.2 Python 实战用传统模型做情感分类我们不需要 GPU直接用scikit-learn演示一个判别式 AI# 环境准备pip install scikit-learnfrom sklearn.feature_extraction.textimportCountVectorizer from sklearn.linear_modelimportLogisticRegressionimportnumpy as np# 模拟训练数据评论及其情感1正面0负面texts[这个产品太棒了,非常失望质量很差,性价比很高推荐,客服态度恶劣,用着还不错,垃圾千万别买]labels[1,0,1,0,1,0]# 文本向量化vectorizerCountVectorizer()Xvectorizer.fit_transform(texts)# 训练一个逻辑回归分类器判别式模型modelLogisticRegression()model.fit(X, labels)# 测试新的评论new_texts[这个东西真好用,简直是个坑]X_newvectorizer.transform(new_texts)predictionsmodel.predict(X_new)probasmodel.predict_proba(X_new)fortext, pred, probainzip(new_texts, predictions, probas): sentiment正面ifpred1else负面print(f评论「{text}」)print(f 预测: {sentiment} (置信度: {max(proba):.2%})\n)预期输出评论「这个东西真好用」 预测: 正面(置信度:78.23%)评论「简直是个坑」 预测: 负面(置信度:65.41%)2.3 判别式 AI 的测试重点关键误区判别式AI不会“不知道”它总是强行给出一个答案哪怕输入完全无关。比如把“今天天气真好”扔进情感分类器它依然会输出正面/负面但那个置信度很低——这就是你需要测试的场景。三、生成式 AI从概率分布中采样3.1 核心原理生成式大模型如GPT-5本质上是一个自回归语言模型给定上文预测下一个 Token 的概率分布然后从中采样。同一个输入可以产生不同的输出因为采样过程有随机性由 temperature 控制。3.2 Python 实战调用大模型生成文本我们使用 OpenAI 兼容的 API 调用一个大模型展示生成式 AI 的行为# 安装pip install openaifrom openaiimportOpenAI# 连接一个兼容 OpenAI API 的服务这里以 DeepSeek 为例可替换clientOpenAI(api_keysk-your-api-key,# 替换为真实 keybase_urlhttps://api.deepseek.com)def generate_text(prompt,temperature0.7): responseclient.chat.completions.create(modeldeepseek-chat,messages[{role:user,content:prompt}],temperaturetemperature,max_tokens200)returnresponse.choices[0].message.content# 测试让模型写一首关于测试的短诗prompt写一首四行诗主题是软件测试工程师的日常result1generate_text(prompt)print( 第一次生成 \n, result1)result2generate_text(prompt)# 相同输入再次调用print(\n 第二次生成 \n, result2)预期输出示例每次不同第一次生成手指在键盘上跳舞 寻找潜藏的漏洞。 一个用例一次验证 质量在代码间流淌。第二次生成从晨曦到夜幕低垂 测试用例堆积成山。 缺陷如春笋般冒出 修复后复测又是一天。两次输出完全不同但都符合主题——这就是生成式的特点。3.3 生成式 AI 的测试重点生成式AI的测试远比判别式复杂因为没有标准答案四、推理型 AI慢思考多步推导4.1 核心原理推理型模型如 OpenAI o3、DeepSeek-R1在生成最终答案之前会进行内部思维链(Chain-of-Thought)分解问题、尝试子步骤、自我验证最后给出答案。它的输出通常包含“思考过程”和“最终答案”两部分。推理型AI的核心区别在于它不是在“猜”而是在“推”。4.2 Python 实战观察推理过程许多 API 支持reasoning_effort或类似参数并返回reasoning_content# 调用推理模型以某支持推理的 API 为例responseclient.chat.completions.create(modeldeepseek-reasoner,# 推理模型messages[{role:user,content:如果所有的猫都是哺乳动物所有的哺乳动物都有脊椎。那么猫一定有脊椎吗请逐步推理。}],max_tokens1000)# 提取推理过程和最终答案reasoningresponse.choices[0].message.reasoning_content# 思考链answerresponse.choices[0].message.content print( 推理过程 \n, reasoning)print(\n 最终答案 \n, answer)预期输出示例推理过程1. 已知前提1所有的猫都是哺乳动物。2. 已知前提2所有的哺乳动物都有脊椎。3. 需要判断猫是否一定有脊椎。4. 根据三段论推理如果A⊆BB⊆C则A⊆C。5. 将猫记为A哺乳动物记为B有脊椎记为C。6. 由前提1得 A⊆B由前提2得 B⊆C因此 A⊆C。7. 所以猫一定有脊椎。8. 结论正确。最终答案是的猫一定有脊椎。4.3 推理型 AI 的测试重点推理型AI的测试不仅要看最终答案更要看中间过程关键误区推理型AI的思考过程可能“看起来很合理但逻辑错误”。必须对中间步骤进行验证而不能只看最终答案。五、三种AI的测试策略对比六、动手试试验证三种AI的差异打开你常用的大模型产品依次做三个实验实验1判别式输入“下面这句话的情感是正面还是负面只回答‘正面’或‘负面’我等的公交车一直不来真让人恼火。”观察是否只输出一个词。实验2生成式输入“用200字写一个关于AI测试工程师穿越到古代的搞笑故事。”观察两次输入同样的提示词输出是否不同。实验3推理式输入“一个房间里有3个开关分别控制隔壁房间的3盏灯。你只能进有灯的房间一次。如何确定每个开关控制哪盏灯请逐步推理。”观察是否有明确的“思考→步骤→结论”结构。记录下三种情况的输出特征你会对三者的差异有直观感受——这也是未来设计测试用例的基础。本文小结判别式AI追求“分得对”测试重点在准确率和鲁棒性生成式AI追求“创作得好”测试重点在有用性、真实性和无害性推理型AI追求“推得通”测试重点在步骤正确性和自我修正能力。三者不是互相替代而是构成一个完整的AI能力谱系。理解它们的本质区别才能设计出针对性的测试策略。下一篇预告《第一次与大模型对话用 Python 调用 API》——从零搭建环境跑通你的第一个大模型程序真正上手写代码。想了解更多还可以去各个平台搜索「IT策士」一起升级 AI 测试思维