Newsletter

法律硕士的演变:市场概述

在主要基准上,顶级 LLM 之间的差距不到 2 个百分点--技术大战以平局告终。真正的 2025 大战在生态系统、分销和成本方面展开:DeepSeek 以 560 万美元对 GPT-4 的 7 800-1.91 亿美元证明了自己的实力。尽管克劳德赢得了 65% 的技术基准测试,但 ChatGPT 在品牌方面仍占主导地位(知名度为 76%)。对公司而言,制胜的策略不是选择 "最好的模式",而是针对不同的用例协调互补的模式。

2025 年语言模式之战:从技术平等到生态系统之争

2025 年,大型语言模型的发展到了一个关键的转折点:竞争的焦点不再是模型的基本功能(目前在主要基准上基本相当),而是生态系统、集成和部署战略。虽然 Anthropic 的 Claude Sonnet 4.5 在特定基准上保持着微弱的技术优势,但真正的战斗已经转移到了不同的领域。

技术抽签:当数字相等时

基准测试 MMLU(大规模多任务语言理解能力)

  • Claude Sonnet 4.5: 88.7%.
  • GPT-4o: 88.0%。
  • Gemini 2.0 Flash: 86.9%.
  • DeepSeek-V3: 87.1%。

这些差异微乎其微--表现最好的公司之间相差不到 2 个百分点。斯坦福大学《2025 年人工智能指数报告》指出,"语言模型核心能力的融合是 2024-2025 年最重要的趋势之一,对人工智能公司的竞争战略具有深远影响"。

推理能力(GPQA 钻石级)

  • Claude Sonnet 4: 65.0%.
  • GPT-4o:53.6%。
  • 双子座 2.0 Pro: 59.1%。

克劳德在复杂的推理任务中仍有明显优势,但 GPT-4o 在反应速度(平均延迟时间为 1.2 秒,克劳德为 2.1 秒)和双子座的本地多模态处理方面更胜一筹。

DeepSeek 革命中国游戏规则的改变

2025 年 1 月,DeepSeek-V3 颠覆性地问世,它展示了如何以 560 万美元开发出具有竞争力的模型,而 GPT-4/Gemini Ultra 的开发成本为 7,800-1.91 亿美元。马克-安德森(Marc Andreessen)称其为 "最令人惊叹的突破之一--作为开放源代码,它是献给世界的一份厚礼"。

DeepSeek-V3 规格

  • 6 710 亿个总参数(通过专家混合物激活了 370 亿个参数)
  • 培训费用:557.6 万美元
  • 性能:在某些数学基准测试中优于 GPT-4o
  • 架构:多头潜意识 (MLA) + DeepSeekMoE

影响:Nvidia 股价在公告发布后单日下跌 17%,市场重估了模型开发的进入壁垒。

公众认知与技术现实

ChatGPT 保持着无可争议的品牌知名度:皮尤研究中心的研究(2025 年 2 月)显示,76% 的美国人将 "对话式人工智能 "与 ChatGPT 联系在一起,而只有 12% 的人知道克劳德,8% 的人积极使用双子座。

悖论:克劳德 Sonnet 4 在 65% 的技术基准上优于 GPT-4o,但消费者市场份额仅为 8%,而 ChatGPT 为 71%(Similarweb 数据,2025 年 3 月)。

谷歌以大规模整合作为回应:Gemini 2.0 原生于搜索、Gmail、Docs、Drive--战略生态系统而非独立产品。21 亿 Google Workspace 用户代表了无需获取客户的即时分销。

计算机使用与代理:下一个前沿领域

克劳德计算机使用(2024 年 10 月测试版,2025 年第一季度量产版)

  • 功能:鼠标/键盘直接控制、浏览器导航、应用程序交互
  • 采用率:12%的企业客户 在生产中使用人类计算机
  • 局限性:复杂的多步骤任务仍有 14% 的失败率

附有愿景和行动的 GPT-4o

  • Zapier 集成:6000 多个可控应用程序
  • 自定义 GPT:已发布 300 万个,正在使用 80 万个
  • 每个 GPT 创建者的收入分成:2024 年第四季度分配 1,000 万美元

双子座深度研究(2025 年 1 月)

  • 具有基准的自主多源研究
  • 通过单个提示生成完整报告
  • 平均时间:每份 5000 字以上的报告 8-12 分钟

Gartner 预测,到 2025 年底,33% 的知识工作者将使用自主人工智能代理,而现在只有 5%。

关于安全的哲学分歧

OpenAI:"通过限制实现安全 "的方法

  • 拒绝 8.7% 提示消费者(OpenAI 内部泄漏数据)
  • 严格的内容政策导致 23% 的开发人员转向替代品
  • 公共准备框架与持续的红色团队

人类:"人工智能宪法

  • 根据明确的道德原则进行培训的模式
  • 选择性拒绝:3.1%提示(OpenAI 更宽容)
  • 透明的决策:解释拒绝申请的原因

谷歌:"最大的安全,最小的争议"。

  • 更严格的市场过滤:11.2%的提示受阻
  • 2024年2月双子座图像失败(偏差过度修正),需格外谨慎
  • 企业关注降低风险容忍度

Meta Llama 3.1:零内置过滤器,以实施者对立哲学为己任。

垂直专业化:真正的差异化优势

医疗保健:

  • Med-PaLM 2(谷歌):MedQA 为 85.4%(最佳人类医生为 77)
  • Epic 系统中的 Claude:被 305 家美国医院采用,用于临床决策支持

法律

  • Harvey AI(GPT-4 定制):102 家百强律师事务所,1 亿美元 ARR
  • CoCounsel (Thomson Reuters + Claude):98% 的法律研究准确率

财务

  • 彭博 GPT:对 363B 自有金融代币进行培训
  • 高盛马库斯人工智能(GPT-4 基础):审批贷款速度提高 40

与普通模式相比,垂直化可产生 3.5 倍的支付意愿(麦肯锡调查,500 名企业买家)。

Llama 3.1:Meta 的开源战略

405B 参数,在许多基准测试中与 GPT-4o 具有竞争能力,完全开放权重。Meta 战略:基础设施层商品化,在产品层展开竞争(雷朋 Meta 眼镜、WhatsApp 人工智能)。

Adoption Llama 3.1:

  • 首月下载量超过 350K
  • 50 多家初创企业在 Llama 上构建人工智能垂直领域
  • 自我管理托管成本:1.2 万美元/月与 5 万美元以上的应用程序接口成本相比,同等使用情况下的封闭模式

反其道而行之:Meta 在 Reality Labs 上亏损数十亿美元,却在开放式人工智能上投入巨资,以保护广告核心业务。

上下文窗口:争夺数百万代币的竞赛

  • 克劳德十四行诗 4.5:20 万个代币
  • 双子座 2.0 Pro:2M 令牌(市面上最长的令牌)
  • GPT-4 Turbo:128K 标记

Gemini 200 万个上下文可以分析整个代码库、10 多个小时的视频和数千页的文档--使用案例具有企业变革性。谷歌云报告显示,43% 的企业 POC 使用的上下文 >500K 标记。

适应性和定制化

克劳德项目与风格

  • 自定义持续交叉对话指令
  • 预设风格:正式、简洁、解释性
  • 知识库上传(最多 5GB 文档)

GPT 商店和自定义 GPT:

  • 已发布 3 百万 GPT,每月活跃使用量达 800K
  • 顶级创作者的月收入为 6.3 万美元(收入共享)
  • 71% 的企业在内部使用 ≥1 个自定义 GPT

双子座扩展:

  • 本地集成 Gmail、日历、驱动器和地图
  • 工作区上下文:读取电子邮件和日历,主动提出建议
  • 2024 年第四季度开展 12 亿次工作区行动

关键:从 "单一提示 "到 "具有跨会话记忆和语境的持续助手"。

2025 年第一季度的发展和未来轨迹

趋势 1:专家混合物占主导地位所有顶级 2025 模型都使用 MoE(每次查询激活子集参数):

  • 推理成本降低 40-60%。
  • 在保持质量的同时改善延迟
  • DeepSeek、GPT-4、Gemini Ultra 均以 MoE 为基础

趋势 2:原生多模态Gemini2.0 原生多模态(不是单独的胶合模块):

  • 同时理解文本+图像+音频+视频
  • 跨模态推理:"比较建筑风格的建筑照片和历史时期的文字描述"。

趋势 3:测试时间计算(推理模型)OpenAI o1、DeepSeek-R1:使用更多处理时间进行复杂推理:

  • o1: 每个复杂数学问题 30-60 秒 vs. 2 秒 GPT-4o
  • 精确度 AIME 2024:83.3% vs 13.4% GPT-4o
  • 明确的延迟/精度权衡

趋势 4:代理工作流程模型上下文协议(MCP)人类,2024 年 11 月:

  • 人工智能代理与工具/数据库交互的开放标准
  • 前 3 个月有 50 多个收养伙伴
  • 允许代理建立持久的交叉交互 "记忆

成本和定价战

100 万个代币的 API 定价(输入):

  • GPT-4o: $2.50
  • 克劳德十四行诗 4:3.00 美元
  • 双子座 2.0 闪光灯:0.075 美元(便宜 33 倍)
  • DeepSeek-V3:0.27 美元(开源,托管费用)

Gemini Flash 案例研究:从 GPT-4o 转换而来的初创公司人工智能摘要降低了 94% 的成本--质量相同,延迟相当。

商品化加速:2023-2024 年推理成本同比下降 70%(Epoch AI 数据)。

对公司的战略影响

决策框架:选择哪种模式?

情景 1:企业安全关键型→克劳德-十四行诗 4

  • 医疗、法律和金融领域的失误导致数百万人丧生
  • 宪法人工智能降低责任风险
  • 以降低风险为理由的溢价定价

方案 2:高容量、成本敏感型→双子座闪存或 DeepSeek

  • 客户服务聊天机器人、内容审核、分类
  • 性能 "足够好",体积 10 倍-100 倍
  • 主要差异化成本

方案 3:生态系统锁定→谷歌工作空间的双子座,微软的 GPT

  • 已投资生态系统
  • 本地集成 > 卓越的边际性能
  • 现有平台的员工培训成本

情景 4:自定义/控制→Llama 3.1 或 DeepSeek 打开

  • 具体的合规要求(数据驻留、审计)
  • 对专有数据进行大量微调
  • 经济的批量自助托管

结论:从技术战争到平台战争

2025 年的乐虎国际客户端下载竞争不再是 "哪种模式理由最充分",而是 "哪种生态系统能获取最大价值"。OpenAI 主导消费品牌,谷歌利用十亿用户分布,Anthropic 赢得安全意识企业,Meta 将基础设施商品化。

预测 2026-2027:

  • 核心性能进一步趋同(~90% MMLU 均为前 5 名)
  • 差异化:速度、成本、整合、垂直专业化
  • 多步骤自主代理成为主流(33% 的知识工作者)
  • 开放源代码缩小质量差距,保持成本/定制优势

最终赢家?可能不是单一的参与者,而是服务于不同使用群组的互补生态系统。正如智能手机操作系统(iOS 和 Android 共存)一样,不是 "赢家通吃",而是 "赢家细分"。

对于企业:多模型策略成为标准--GPT 适用于一般任务,Claude 适用于高风险推理,Gemini Flash 适用于大量任务,Llama 为专有任务进行定制调整。

2025 年不是 "最佳模式 "之年,而是互补模式之间智能协调之年。

资料来源

  • 2025 年斯坦福人工智能指数报告
  • 人类学模型卡 克劳德-十四行诗 4.5
  • OpenAI GPT-4o 技术报告
  • 谷歌 DeepMind 双子座 2.0 系统卡
  • DeepSeek-V3 技术论文(arXiv)
  • Epoch AI - 机器学习的趋势
  • 2025 年 Gartner 人工智能与分析峰会
  • 麦肯锡 2025 年人工智能现状报告
  • 皮尤研究中心人工智能应用调查
  • Similarweb 平台智能

促进业务增长的资源