Status: [LIVE]

Endpoints found:
https://api.openai.com/v1/chat/completions
https://api.openai.com/v1/chat
https://api.openai.com/v1/chat/completions`

Source: https://github.com/HaoCheng-Wang/llm-proxy2

# LLM Proxy — 智能体与大模型 API 通信拦截记录系统

截获和记录智能体与大模型 API 之间 HTTP 通信的代理系统。支持流式/非流式请求、SSE 重组为完整 JSON、JSON 树形查看、实时刷新、多用户隔离。

## 目录

- [核心设计](#核心设计)
- [完整数据流](#完整数据流)
- [数据模型](#数据模型)
- [安全设计](#安全设计)
- [高并发设计](#高并发设计)
- [SSE 流式处理](#sse-流式处理)
- [大数据量导出：端到端流式架构](#大数据量导出端到端流式架构)
  - [各层关键设计](#各层关键设计)
  - [一次性 Ticket 鉴权](#一次性-ticket-鉴权)
  - [两条导出路径](#两条导出路径)
  - [format=simple 模式](#formatsimple-模式)
  - [每行处理性能](#每行处理性能零解析-vs-jsonloadsdumps)
  - [Nginx 流式 gzip 压缩](#nginx-流式-gzip-压缩)
  - [LONGTEXT 列按需选取](#longtext-列按需选取)
  - [复合索引与 COUNT 加速](#复合索引与-count-加速)
  - [生成器异常恢复](#生成器异常恢复)
  - [导出进度日志](#导出进度日志)
  - [ORDER BY 为什么不会拖慢速度](#order-by-为什么不会拖慢速度)
  - [编译 SQL 日志](#编译-sql-日志)
  - [实测效果](#实测效果)
  - [各优化项贡献](#各优化项贡献)
  - [瓶颈分析](#瓶颈分析)
- [部署方式](#部署方式)
- [API 接口](#api-接口)
- [环境变量](#环境变量)

## 核心设计

### 共享代理（Shared Proxy）

整个系统只监听一个 TCP 端口（默认 3998），通过 URL 路径中的代理编号区分不同用户：

```mermaid
flowchart LR
    A[智能体 Agent] -->|"POST /12345/v1/chat/completions"| B[LLM Proxy :3998]
    B -->|"查缓存/DB → target_url"| C[目标 LLM API]
    C -->|"响应"| B
    B -->|"记录"| D[(MySQL)]
    B -->|"透传"| A
```

| 特性 | 实现 |
|------|------|
| 编号 | 5 位随机数，系统分配，永不冲突 |
| 服务器 | 单进程 FastAPI + asynci