Claude API 定价完全解析：如何精确控制 AI 成本

很多开发者第一次看到 Claude API 账单时会震惊——不是因为太贵，而是因为不知道钱花在哪里了。Token 计费不像按月订阅那么直观，搞懂之后其实完全可以精确控制。

Token 是什么？

Token 是 AI 模型处理文本的基本单位，不是字或词，而是”子词”（subword）：

英文：1 token ≈ 4 个字符（约 ¾ 个单词）
中文：1 个汉字 ≈ 1-2 个 token（比英文密度更高）

快速估算：

1000 个中文字 ≈ 1500-2000 tokens
1000 个英文单词 ≈ 1300-1500 tokens

你在 Anthropic 官网可以用他们的 tokenizer 工具精确计算。

Claude 各模型定价（2025年参考）

模型	输入价格（/百万tokens）	输出价格（/百万tokens）
Claude Haiku 4.5	$0.80	$4
Claude Sonnet 4.6	$3	$15
Claude Opus 4.7	$15	$75

关键点： 输出 token 比输入 token 贵得多（3-5倍）。这意味着：

让 Claude 生成长文本比读取长文本更贵
控制输出长度是降本的重要手段

真实场景成本估算

场景1：文章生成（每篇）

假设：每篇文章 1000 字（约 1500 tokens 输出）
提示词：200 字（约 300 tokens 输入）

使用 Claude Sonnet 4.6：
- 输入成本：300 / 1,000,000 × $3 = $0.0009
- 输出成本：1500 / 1,000,000 × $15 = $0.0225
- 总计：约 $0.023 / 篇

每月生成 1000 篇 = $23 / 月

场景2：客服机器人（每次对话）

假设：每次对话平均 5 轮，每轮输入 500 tokens，输出 200 tokens

使用 Claude Haiku 4.5（适合客服场景）：
- 每轮输入：500 / 1,000,000 × $0.80 = $0.0004
- 每轮输出：200 / 1,000,000 × $4 = $0.0008
- 每轮合计：$0.0012
- 每次完整对话（5轮）：$0.006

每天 1000 次对话 = $6 / 天 = $180 / 月

场景3：代码审查（每次）

假设：代码文件 3000 tokens + 审查结果 500 tokens

使用 Claude Sonnet 4.6：
- 输入：3000 / 1,000,000 × $3 = $0.009
- 输出：500 / 1,000,000 × $15 = $0.0075
- 每次：约 $0.017

开发团队每人每天审查 10 次：$0.17 / 人 / 天

降低成本的实用技巧

技巧1：模型选择策略（最重要）

不是所有任务都需要最强模型：

def choose_model(task_type: str) -> str:
    model_map = {
        # 简单分类、提取、格式转换 → Haiku
        "classification": "claude-haiku-4-5-20251001",
        "extraction": "claude-haiku-4-5-20251001",
        "translation": "claude-haiku-4-5-20251001",
        
        # 内容生成、分析、代码 → Sonnet
        "content_generation": "claude-sonnet-4-6",
        "analysis": "claude-sonnet-4-6",
        "coding": "claude-sonnet-4-6",
        
        # 复杂推理、长文档、高质量创作 → Opus
        "complex_reasoning": "claude-opus-4-7",
        "long_document": "claude-opus-4-7",
    }
    return model_map.get(task_type, "claude-sonnet-4-6")

实际效果： 把 50% 的简单任务从 Sonnet 切换到 Haiku，总成本可以降低约 35%。

技巧2：Prompt Caching（缓存重复内容）

如果你的提示词有大段固定内容（系统提示、文档、示例），可以用 Prompt Caching：

import anthropic

client = anthropic.Anthropic()

# 超过 1024 tokens 的内容可以缓存
# 缓存后，后续相同内容只收取 10% 的费用
message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是专业客服助手...",  # 固定的系统提示
        },
        {
            "type": "text",
            "text": "<产品手册内容>...</产品手册内容>",  # 大量固定文档
            "cache_control": {"type": "ephemeral"}  # 标记为可缓存
        }
    ],
    messages=[{"role": "user", "content": "用户的问题"}]
)

何时值得用 Caching：

系统提示 + 固定文档超过 2000 tokens
同一上下文会被多次请求复用
缓存有效期：5分钟（每次使用后重置）

技巧3：批量 API（离线任务省 50%）

Anthropic 提供 Batch API，对不需要实时响应的任务可以降低 50% 成本：

# 批量处理（异步，最长 24 小时处理完）
import anthropic

client = anthropic.Anthropic()

# 创建批量任务
batch = client.messages.batches.create(
    requests=[
        {
            "custom_id": f"article_{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 1024,
                "messages": [{"role": "user", "content": f"写关于{topic}的文章"}]
            }
        }
        for i, topic in enumerate(topics)
    ]
)

print(f"批次 ID: {batch.id}")
# 等待处理完成后获取结果

适合批量 API 的场景：

批量内容生成（不需要立即使用）
大量文本分类/打标签
数据处理流水线

技巧4：控制 max_tokens

很多开发者设置了过高的 max_tokens，但 Claude 实际输出的内容更短。问题是 max_tokens 本身不计费，计费的是实际输出。

但 max_tokens 设置太高会导致：

有时 Claude 会”填满”配额，输出冗余内容
影响响应速度

建议： 根据任务类型设置合理的 max_tokens：

task_max_tokens = {
    "分类": 64,
    "摘要": 256,
    "短文生成": 512,
    "中长文": 1024,
    "长文章": 2048,
    "代码生成": 4096,
}

技巧5：避免重复上下文

多轮对话中，每次请求都会把整个对话历史发送过去：

第1轮：100 tokens 输入
第2轮：100 + 50(回复1) + 100(问题2) = 250 tokens 输入
第3轮：250 + 80(回复2) + 100(问题3) = 430 tokens 输入
...

对话越长，成本越高。解决方案：

def compress_history(messages: list, max_tokens: int = 2000) -> list:
    """保留最近的对话，压缩旧内容"""
    if len(messages) <= 4:
        return messages
    
    # 保留最近4条消息
    recent = messages[-4:]
    
    # 把之前的对话压缩成摘要
    old_messages = messages[:-4]
    summary_prompt = f"请用100字摘要以下对话的要点：{old_messages}"
    
    summary = call_claude(summary_prompt)  # 用 Haiku 生成摘要（便宜）
    
    return [
        {"role": "user", "content": f"对话摘要：{summary}"},
        {"role": "assistant", "content": "好的，我了解了之前的讨论。"},
        *recent
    ]

成本监控

# 追踪每次调用的成本
def calculate_cost(usage, model: str) -> float:
    prices = {
        "claude-haiku-4-5-20251001": {"input": 0.80, "output": 4.0},
        "claude-sonnet-4-6": {"input": 3.0, "output": 15.0},
        "claude-opus-4-7": {"input": 15.0, "output": 75.0},
    }
    
    price = prices.get(model, prices["claude-sonnet-4-6"])
    input_cost = usage.input_tokens / 1_000_000 * price["input"]
    output_cost = usage.output_tokens / 1_000_000 * price["output"]
    
    return input_cost + output_cost

# 在每次 API 调用后记录
message = client.messages.create(...)
cost = calculate_cost(message.usage, model)
print(f"本次调用：输入 {message.usage.input_tokens} tokens，"
      f"输出 {message.usage.output_tokens} tokens，"
      f"成本 ${cost:.4f}")

个人/小团队的预算参考

使用场景	月调用量	推荐方案	预估月费
个人学习使用	<100次	Claude Pro（$20）	$20/月固定
个人开发项目	1000-5000次	API + Haiku	$5-25/月
小团队内部工具	5000-20000次	API + Sonnet	$30-150/月
内容生成业务	10000-50000次	API + Batch	$50-300/月
SaaS 产品	50000+ 次	API + 缓存 + Batch	需要专门估算

一个常见误区

“用 Claude Pro 比 API 便宜”

Claude Pro（$20/月）适合个人使用，不适合编程调用：

Pro 不能通过 API 调用
Pro 有使用限额（非无限）
如果你是开发者，API 才是正确方式

Pro 和 API 是两个完全不同的产品，面向不同用户。