用pytest构建AI应用测试体系：从语义断言到CI/CD集成

2026/6/26 1:08:04

1. 项目概述：当传统测试框架遇上AI应用

最近在团队里搞AI应用的质量保障，发现一个挺有意思的现象：很多同事一提到测试AI，第一反应就是“这玩意儿怎么测？输出都不确定”。确实，传统的功能测试，输入A，预期输出B，断言一下就完事了。但AI应用，尤其是大模型驱动的应用，你给它一段“帮我写个工作总结”，它每次生成的内容可能都不一样，虽然意思都对，但字句总有差异。直接用assert response == “预期的固定文本”这条路，基本走不通。

这就是为什么我想聊聊用pytest来测试AI应用。你可能会问，pytest不是一个Python的单元测试框架吗？没错，但它强大的插件生态、灵活的夹具（fixture）系统、以及参数化测试能力，恰恰是应对AI应用“不确定性”的绝佳武器。我们不是在测试一个黑盒魔法，而是在用工程化的手段，去验证这个“魔法”的可靠性、稳定性和安全性。核心要解决的，就是如何将AI输出的“模糊正确”转化为可自动化断言、可重复执行的测试用例。

这篇文章，我会结合最近在几个AI项目（包括智能客服、代码生成助手和内容审核服务）中的实战经验，拆解如何用pytest搭建一套针对AI应用的测试体系。无论你是刚开始接触AI测试，还是已经有一些经验但想提升自动化水平，相信都能找到可以直接“抄作业”的思路和代码片段。

2. 测试策略与框架设计思路

测试AI应用，不能套用传统软件的思维。我们需要先跳出“输入-输出完全匹配”的框框，建立一套新的测试心智模型。

2.1 理解AI应用的测试维度

AI应用的测试可以粗略分为几个层次，就像洋葱一样一层层剥开：

单元测试（模型/组件层）：这是最内层。测试的对象可能是封装好的模型调用函数、提示词（Prompt）模板引擎、输出解析器（Output Parser）等。这里关注的是代码逻辑是否正确，比如给定的输入经过Prompt模板组装后，是否生成了符合预期的API调用参数。
集成测试（服务/API层）：模型需要被集成到一个服务中，比如一个FastAPI后端。这一层测试关注HTTP接口的契约，例如请求/响应格式、状态码。对于AI应用，重点测试的是服务能否正确处理不同的输入，并返回结构化的响应（哪怕内容不确定）。
行为/效果测试（业务价值层）：这是最外层，也是最具挑战的一层。我们不再关心具体的输出文本，而是关心输出的“效果”是否符合业务预期。例如，一个文本总结模型，我们需要断言其输出是否包含了原文的核心要点；一个分类模型，我们需要断言其分类结果是否合理。

pytest在这三个层次都能发挥作用，但需要搭配不同的测试策略和断言方法。

2.2 pytest在AI测试中的核心优势

为什么是pytest？因为它提供了传统unittest框架难以比拟的灵活性。

夹具（Fixture）的依赖注入：AI测试中，经常需要初始化昂贵的资源，比如大模型客户端、向量数据库连接、测试用的知识库文档。pytest的fixture可以优雅地管理这些资源的生命周期（如scope=”session”整个测试会话只初始化一次），并通过依赖注入的方式提供给各个测试用例，避免重复初始化带来的时间和成本消耗。
参数化测试（@pytest.mark.parametrize）：AI应用需要对大量不同的输入场景进行测试。参数化允许我们用一组数据驱动同一个测试函数，极大地减少了代码重复。你可以轻松测试模型在不同语言、不同长度、包含特殊字符或对抗性样本时的表现。
丰富的断言与插件：pytest自带的assert语句已经很强大，但对于复杂的AI输出断言，我们可能需要更专业的工具。例如，我们可以结合pytest-assume进行“软断言”（一个用例中多个断言，失败一个不影响后续执行），或者用自定义的断言函数来封装对AI输出的语义检查。
钩子（Hook）与插件定制：当标准功能不够用时，pytest允许你通过编写插件或使用钩子函数来扩展框架。例如，你可以编写一个插件，自动为每个涉及模型调用的测试用例添加请求延迟、记录输入输出用于后续分析，或者在测试失败时自动截取并存储模型的原始响应，方便调试。

基于这些优势，我们的测试框架设计核心思想是：将确定性的部分（如接口契约、代码逻辑）与不确定性的部分（如模型生成的内容）解耦，并对不确定性部分采用概率性、语义性的断言方法。

3. 核心测试模式与断言方法详解

直接上干货。下面介绍几种在AI应用测试中经过实战检验的pytest模式和断言方法。

3.1 夹具设计：管理模型客户端与测试数据

首先，我们需要一个可靠的方式来获取模型客户端。这里以使用OpenAI API（或兼容API，如Azure OpenAI、Ollama）为例。

# conftest.py import pytest import os from openai import OpenAI from typing import Generator @pytest.fixture(scope="session") def openai_client() -> Generator[OpenAI, None, None]: """ 会话级别的fixture，整个测试过程只创建一个OpenAI客户端。 通过环境变量获取API密钥和Base URL，兼容多种部署方式。 """ api_key = os.getenv("TEST_OPENAI_API_KEY") base_url = os.getenv("TEST_OPENAI_BASE_URL", "https://api.openai.com/v1") if not api_key: pytest.skip("测试需要设置 TEST_OPENAI_API_KEY 环境变量") client = OpenAI(api_key=api_key, base_url=base_url) yield client # 如果需要，可以在这里添加清理逻辑，但通常客户端不需要特殊关闭

注意事项：

环境变量管理：永远不要将API密钥硬编码在代码中。使用pytest-dotenv插件或直接在CI/CD环境中配置。
pytest.skip：如果缺少必要配置，优雅地跳过测试，而不是让测试失败，这在不具备测试环境的本地运行时很有用。
作用域（Scope）：使用scope=”session”能极大提升测试速度，因为模型客户端初始化可能较慢。但要确保你的客户端是线程安全的。

接下来，是测试数据。我们可以用fixture来提供不同的测试用例。

# conftest.py @pytest.fixture(params=[ ("用Python写一个快速排序函数", "python"), ("Write a hello world program in JavaScript", "javascript"), ("请用Go语言实现一个HTTP服务器", "go"), ]) def code_generation_case(request): """参数化fixture，提供多个代码生成任务的输入和预期语言。""" prompt, expected_lang = request.param return {"prompt": prompt, "expected_lang": expected_lang}

3.2 语义断言：超越字符串完全匹配

这是测试AI应用的核心。我们无法断言生成的文本一字不差，但可以断言其“意思”是否正确。

方法一：关键词/关键短语检查对于总结、分类、提取等任务，输出中必须包含某些关键信息。

def assert_contains_key_phrases(text: str, required_phrases: list, optional_phrases: list = None): """ 断言文本中必须包含所有required_phrases，并尽可能包含optional_phrases。 """ missing_required = [phrase for phrase in required_phrases if phrase not in text] assert not missing_required, f"文本中缺少必要短语：{missing_required}" if optional_phrases: found_optional = sum(1 for phrase in optional_phrases if phrase in text) # 可以设置一个阈值，例如至少包含50%的可选短语 # assert found_optional >= len(optional_phrases) * 0.5, “可选短语匹配不足” # 在测试用例中使用 def test_summarization(openai_client): prompt = "请总结《西游记》的主要情节。" response = openai_client.chat.completions.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}] ) summary = response.choices[0].message.content required = ["孙悟空", "唐僧", "取经", "八十一难"] optional = ["猪八戒", "沙僧", "白龙马"] assert_contains_key_phrases(summary, required, optional)

方法二：使用嵌入模型计算语义相似度对于更灵活的生成任务（如创意写作、对话），关键词可能不够。我们可以将预期输出的“要点”（不是完整句子）和实际输出都转化为向量（嵌入），然后计算余弦相似度。

import numpy as np from sklearn.metrics.pairwise import cosine_similarity def assert_semantic_similarity( generated_text: str, reference_ideas: list[str], # 预期包含的要点列表 embedding_model, # 一个嵌入模型调用函数 threshold: float = 0.7 ): """ 通过计算嵌入向量的相似度，来判断生成文本是否涵盖了参考要点。 """ # 为生成文本和每个参考要点获取嵌入向量 gen_vec = embedding_model(generated_text).reshape(1, -1) ref_vecs = np.array([embedding_model(ref).reshape(1, -1) for ref in reference_ideas]) # 计算相似度 similarities = cosine_similarity(gen_vec, ref_vecs.reshape(len(reference_ideas), -1))[0] # 断言：对于每个参考要点，相似度都应达到阈值（或平均相似度） # 这里采用平均相似度作为判断 mean_similarity = np.mean(similarities) assert mean_similarity >= threshold, f"语义相似度过低：{mean_similarity:.3f} < {threshold}" # 注意：embedding_model 需要你自己封装或使用现有服务（如OpenAI的text-embedding-ada-002）。

方法三：使用大模型自身进行评判（LLM-as-a-Judge）这是目前非常流行且强大的方法。让一个（通常是更强的）模型来评估另一个模型的输出。我们可以用pytest很好地组织这类测试。

# conftest.py @pytest.fixture def judge_model(openai_client): """一个用于评估的模型fixture，可以用GPT-4等更可靠的模型。""" def judge(prompt, response, criteria): evaluation_prompt = f""" 你是一个严格的评估员。请根据以下标准评估回答： 标准：{criteria} 用户问题：{prompt} 助手回答：{response} 请只输出一个分数，范围0-10，10为完美符合。 """ eval_response = openai_client.chat.completions.create( model="gpt-4", # 使用更强的模型作为裁判 messages=[{"role": "user", "content": evaluation_prompt}], temperature=0.0 # 温度设为0，确保评判一致性 ) try: score = float(eval_response.choices[0].message.content.strip()) return score except ValueError: return 0.0 return judge # test_ai.py def test_creative_writing_quality(openai_client, judge_model): prompt = "写一个关于人工智能的短篇科幻故事开头，要求有悬疑感。" response = openai_client.chat.completions.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}] ).choices[0].message.content criteria = “故事开头是否设置了悬念？是否包含科幻元素？语言是否流畅？” score = judge_model(prompt, response, criteria) # 断言得分超过某个阈值 assert score >= 7.0, f"创作质量评分过低：{score}"

注意：LLM-as-a-Judge方法本身也有成本和波动性。建议在关键测试中结合其他断言方法使用，并考虑对评判结果进行缓存，以减少API调用和成本。

3.3 结构化输出测试：利用Pydantic验证

很多现代AI应用框架（如LangChain、LlamaIndex）支持要求模型输出结构化的JSON数据。这大大简化了测试！我们可以结合Pydantic模型进行验证。

from pydantic import BaseModel, Field from typing import List class CodeReviewResult(BaseModel): """定义代码评审结果的期望结构。""" has_issues: bool issues: List[str] = Field(default_factory=list) suggestion: str | None = None def test_structured_code_review(openai_client): prompt = f""" 请评审以下Python代码，并严格按照JSON格式输出，包含`has_issues`（布尔值）、`issues`（字符串列表）、`suggestion`（字符串或null）字段。 代码： ```python def add(a, b): return a + b ``` """ response = openai_client.chat.completions.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}], response_format={ "type": "json_object" } # 要求返回JSON ) output_json = response.choices[0].message.content # 关键步骤：用Pydantic模型解析和验证 try: result = CodeReviewResult.model_validate_json(output_json) except Exception as e: pytest.fail(f"模型输出无法解析为指定结构：{e}\n原始输出：{output_json}") # 现在可以对结构化的result进行更细致的断言 assert isinstance(result.has_issues, bool) if result.has_issues: assert len(result.issues) > 0, “标记为有问题，但issues列表为空” # 可以进一步断言issues里是否包含特定关键词，如“缺少类型注解”

这种方法将“输出格式是否正确”这个确定性问题和“输出内容是否合理”这个不确定性问题分开了。格式验证由Pydantic完成，内容验证则可以基于结构化的字段进行（例如，断言issues列表不为空）。

4. 搭建自动化测试流水线

单个测试用例写好了，接下来是如何把它们组织起来，并集成到CI/CD中，形成可靠的质控关卡。

4.1 测试目录结构与组织

一个清晰的目录结构有助于管理不同类型的测试。

ai_project/ ├── src/ │ └── ... # 你的AI应用源码 ├── tests/ │ ├── __init__.py │ ├── conftest.py # 全局fixture，如openai_client, judge_model │ ├── unit/ # 单元测试 │ │ ├── test_prompt_engineer.py │ │ └── test_output_parser.py │ ├── integration/ # 集成测试 │ │ ├── test_fastapi_client.py │ │ └── conftest.py # 可能包含测试服务器启动fixture │ └── functional/ # 功能/效果测试 │ ├── test_code_generation.py │ ├── test_text_summarization.py │ └── test_creative_tasks.py ├── pytest.ini # pytest配置文件 └── requirements-test.txt # 测试依赖

在pytest.ini中，可以配置一些默认选项：

[pytest] # 自动发现测试文件 python_files = test_*.py # 指定测试目录 testpaths = tests # 增加详细输出 addopts = -v --tb=short # 标记需要网络/API的测试为“slow”，方便选择性运行 markers = slow: marks tests as slow (deselect with '-m “not slow”')

4.2 标记（Mark）与分类执行

AI测试中，有些测试调用真实模型API，速度慢、有成本。我们需要能灵活地控制它们的执行。

# test_ai.py import pytest @pytest.mark.slow @pytest.mark.integration def test_complete_ai_workflow(openai_client): """一个完整的、耗时的集成测试用例。""" # ... 调用多个API，完成一个完整业务流程 pass @pytest.mark.fast def test_prompt_template(): """一个纯逻辑的、快速的单元测试。""" # ... 测试Prompt模板的字符串替换 pass

在命令行中，可以这样控制：

只运行快速测试：pytest -m “fast”
运行除慢测试外的所有测试：pytest -m “not slow”
只运行集成测试：pytest -m integration

4.3 CI/CD集成与成本控制

在GitHub Actions、GitLab CI等环境中集成时，需要注意：

密钥管理：将TEST_OPENAI_API_KEY等作为仓库机密（Secrets）注入到CI环境变量中。
测试触发策略：
- Push / PR到主分支：运行全部测试（包括标记为slow的）。
- 日常开发分支Push：只运行-m “not slow”的测试，快速反馈。
- 可以设置定时任务（如每晚），运行完整的慢测试套件，生成测试报告。
成本与限流：
- Mock测试：对于单元测试，尽量使用unittest.mock来模拟（mock）模型调用，返回预设的响应，避免真实API调用。
- 测试缓存：对于效果测试，可以考虑将模型对固定输入的响应缓存到文件或内存数据库（如pytest-cache插件），在CI环境中重复使用，避免重复计费。
- 速率限制：在fixture或测试代码中主动添加time.sleep()，避免对API发起过于频繁的请求。
- 预算告警：为测试专用的API密钥设置使用量预算和告警。

一个简单的GitHub Actions工作流示例：

name: AI Tests on: [push, pull_request] jobs: test: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Set up Python uses: actions/setup-python@v4 with: python-version: ‘3.11’ - name: Install dependencies run: | pip install -r requirements.txt pip install -r requirements-test.txt - name: Run fast tests env: TEST_OPENAI_API_KEY: ${{ secrets.TEST_OPENAI_API_KEY }} run: | pytest -m “not slow” --junitxml=test-results/fast.xml - name: Run slow tests (only on main or schedule) if: github.ref == ‘refs/heads/main’ || github.event_name == ‘schedule’ env: TEST_OPENAI_API_KEY: ${{ secrets.TEST_OPENAI_API_KEY }} run: | pytest -m “slow” --junitxml=test-results/slow.xml

5. 实战中的常见问题与调试技巧

在实际操作中，你会遇到各种意想不到的情况。这里记录几个典型的“坑”和解决方法。

5.1 测试的“非确定性”与重试机制

即使温度（temperature）设为0，不同模型版本或不同时间调用API，输出仍可能有细微差别，导致基于字符串的断言失败。对于非核心的文本差异，可以采用更宽松的断言。

规范化文本：在比较前，移除多余空格、换行符、标点符号（如果业务允许）。

def normalize_text(text: str) -> str: import re text = re.sub(r‘\s+‘, ‘ ‘, text) # 合并所有空白字符 text = text.strip().lower() # 去首尾空格并转小写 # 可选：移除特定标点 # text = re.sub(r‘[，。！？、]‘, ‘’, text) return text assert normalize_text(response) == normalize_text(expected)

实现重试机制：对于因模型暂时性波动导致的失败，可以给测试用例加上重试装饰器。pytest-rerunfailures插件可以帮到你。
```
pip install pytest-rerunfailures
```
```
# pytest.ini addopts = --reruns 2 --reruns-delay 1
```
这会在测试失败后自动重试2次，每次间隔1秒。注意：要谨慎使用，确保重试是因为“波动”而非真正的逻辑错误。

5.2 如何定位是Prompt问题还是模型问题？

测试失败时，输出不符合预期。是Prompt没写清楚，还是模型这次“发挥失常”？

记录与审查：在测试fixture或通过pytest钩子，自动将每次模型调用的**完整Prompt（包括系统消息）**和响应记录下来。可以将它们输出到日志文件，或者在测试失败时作为错误信息的一部分打印出来。pytest的caplogfixture 可以用于捕获日志。
隔离测试：编写一个极简的“Prompt有效性”测试。用同一个模型，测试不同版本或不同表述的Prompt，看哪个效果更稳定。这能帮你快速定位问题是否出在Prompt工程上。
使用更可靠的模型作为基准：在调试时，可以用GPT-4等公认能力更强的模型，使用相同的Prompt跑一次。如果GPT-4输出正确，而你的测试模型输出错误，那很可能是模型能力边界或当前随机性的问题。如果GPT-4也错了，那几乎可以肯定是Prompt或业务逻辑设计的问题。

5.3 处理长文本输出与超时

AI生成长文本（如报告、长故事）时，测试可能因响应时间过长而超时。

调整pytest超时设置：使用pytest-timeout插件为特定测试或全部测试设置合理的超时时间。
```
pip install pytest-timeout
```
```
@pytest.mark.timeout(60) # 单个测试用例超时60秒 def test_long_form_generation(): ...
```
或在命令行：pytest --timeout=120
流式处理与渐进式断言：如果业务支持，使用API的流式响应（streaming）。你可以一边接收内容，一边进行初步的断言（例如，检查开头是否包含特定格式），而不是等待全部完成。这能更快地发现致命错误。
设置合理的上下文长度和生成令牌限制：在测试中，明确控制max_tokens参数，避免生成过长的、不必要的文本，既节省时间也节省成本。

5.4 测试覆盖率与质量评估

如何衡量AI应用测试的好坏？代码覆盖率工具（如pytest-cov）仍然有用，但它主要覆盖的是你的包装代码（如Prompt组装、输出解析、错误处理逻辑）。

对于模型本身的效果，需要建立一套评估基准（Evaluation Benchmark）。这通常是一个包含大量（输入，期望输出）配对的数据集。在pytest中，你可以通过参数化测试来运行这个基准。

import json def load_benchmark(filepath: str): with open(filepath, ‘r‘, encoding=‘utf-8‘) as f: return json.load(f) # 假设 benchmark.json 是一个列表，每一项是 {"input": “…”, “expected_keywords”: […]} @pytest.mark.parametrize(“case”, load_benchmark(“tests/benchmark.json”)) def test_against_benchmark(openai_client, case): response = call_ai_model(openai_client, case[“input”]) assert_contains_key_phrases(response, case[“expected_keywords”])

定期（如每周）在CI中运行这个基准测试，并跟踪通过率的变化，可以量化模型更新或Prompt修改对整体效果的影响。

最后，别忘了“负向测试”。测试AI应用不仅要看它“该做什么”，还要看它“不该做什么”。例如，测试其是否能有效拒绝不安全的请求、不生成有害内容、在输入无意义时给出合理回应等。这可以通过构造特定的对抗性Prompt并断言输出中不包含危险内容来实现。

测试AI应用是一个持续迭代的过程，没有一劳永逸的银弹。pytest提供的不是一个固定的解决方案，而是一个强大且灵活的基础设施，让你能够以软件工程的方式，去管理和提升那些看似不确定的智能系统的质量。从写好第一个语义断言开始，逐步构建起你的测试堡垒，你会发现，AI应用的开发也可以像传统软件一样，稳健而有序。