法律硕士的演变：市场概述

Newsletter

法律硕士的演变：市场概述

在主要基准上，顶级 LLM 之间的差距不到 2 个百分点--技术大战以平局告终。真正的 2025 大战在生态系统、分销和成本方面展开：DeepSeek 以 560 万美元对 GPT-4 的 7 800-1.91 亿美元证明了自己的实力。尽管克劳德赢得了 65% 的技术基准测试，但 ChatGPT 在品牌方面仍占主导地位（知名度为 76%）。对公司而言，制胜的策略不是选择 "最好的模式"，而是针对不同的用例协调互补的模式。

法比奥-劳里亚

Electe‍ 首席执行官兼创始人

用人工智能总结本文

2025 年语言模式之战：从技术平等到生态系统之争

2025 年，大型语言模型的发展到了一个关键的转折点：竞争的焦点不再是模型的基本功能（目前在主要基准上基本相当），而是生态系统、集成和部署战略。虽然 Anthropic 的 Claude Sonnet 4.5 在特定基准上保持着微弱的技术优势，但真正的战斗已经转移到了不同的领域。

技术抽签：当数字相等时

基准测试 MMLU（大规模多任务语言理解能力）

Claude Sonnet 4.5: 88.7%.
GPT-4o: 88.0%。
Gemini 2.0 Flash: 86.9%.
DeepSeek-V3: 87.1%。

这些差异微乎其微--表现最好的公司之间相差不到 2 个百分点。斯坦福大学《2025 年人工智能指数报告》指出，"语言模型核心能力的融合是 2024-2025 年最重要的趋势之一，对人工智能公司的竞争战略具有深远影响"。

推理能力（GPQA 钻石级）

Claude Sonnet 4: 65.0%.
GPT-4o：53.6%。
双子座 2.0 Pro: 59.1%。

克劳德在复杂的推理任务中仍有明显优势，但 GPT-4o 在反应速度（平均延迟时间为 1.2 秒，克劳德为 2.1 秒）和双子座的本地多模态处理方面更胜一筹。

DeepSeek 革命中国游戏规则的改变

2025 年 1 月，DeepSeek-V3 颠覆性地问世，它展示了如何以 560 万美元开发出具有竞争力的模型，而 GPT-4/Gemini Ultra 的开发成本为 7,800-1.91 亿美元。马克-安德森（Marc Andreessen）称其为 "最令人惊叹的突破之一--作为开放源代码，它是献给世界的一份厚礼"。

DeepSeek-V3 规格

6 710 亿个总参数（通过专家混合物激活了 370 亿个参数）
培训费用：557.6 万美元
性能：在某些数学基准测试中优于 GPT-4o
架构：多头潜意识 (MLA) + DeepSeekMoE

影响：Nvidia 股价在公告发布后单日下跌 17%，市场重估了模型开发的进入壁垒。

公众认知与技术现实

ChatGPT 保持着无可争议的品牌知名度：皮尤研究中心的研究（2025 年 2 月）显示，76% 的美国人将 "对话式人工智能 "与 ChatGPT 联系在一起，而只有 12% 的人知道克劳德，8% 的人积极使用双子座。

悖论：克劳德 Sonnet 4 在 65% 的技术基准上优于 GPT-4o，但消费者市场份额仅为 8%，而 ChatGPT 为 71%（Similarweb 数据，2025 年 3 月）。

谷歌以大规模整合作为回应：Gemini 2.0 原生于搜索、Gmail、Docs、Drive--战略生态系统而非独立产品。21 亿 Google Workspace 用户代表了无需获取客户的即时分销。

计算机使用与代理：下一个前沿领域

克劳德计算机使用（2024 年 10 月测试版，2025 年第一季度量产版）

功能：鼠标/键盘直接控制、浏览器导航、应用程序交互
采用率：12%的企业客户在生产中使用人类计算机
局限性：复杂的多步骤任务仍有 14% 的失败率

附有愿景和行动的 GPT-4o

Zapier 集成：6000 多个可控应用程序
自定义 GPT：已发布 300 万个，正在使用 80 万个
每个 GPT 创建者的收入分成：2024 年第四季度分配 1,000 万美元

双子座深度研究（2025 年 1 月）

具有基准的自主多源研究
通过单个提示生成完整报告
平均时间：每份 5000 字以上的报告 8-12 分钟

Gartner 预测，到 2025 年底，33% 的知识工作者将使用自主人工智能代理，而现在只有 5%。

关于安全的哲学分歧

OpenAI："通过限制实现安全 "的方法

拒绝 8.7% 提示消费者（OpenAI 内部泄漏数据）
严格的内容政策导致 23% 的开发人员转向替代品
公共准备框架与持续的红色团队

人类："人工智能宪法

根据明确的道德原则进行培训的模式
选择性拒绝：3.1%提示（OpenAI 更宽容）
透明的决策：解释拒绝申请的原因

谷歌："最大的安全，最小的争议"。

更严格的市场过滤：11.2%的提示受阻
2024年2月双子座图像失败（偏差过度修正），需格外谨慎
企业关注降低风险容忍度

Meta Llama 3.1：零内置过滤器，以实施者对立哲学为己任。

垂直专业化：真正的差异化优势

医疗保健：

Med-PaLM 2（谷歌）：MedQA 为 85.4%（最佳人类医生为 77）
Epic 系统中的 Claude：被 305 家美国医院采用，用于临床决策支持

法律

Harvey AI（GPT-4 定制）：102 家百强律师事务所，1 亿美元 ARR
CoCounsel (Thomson Reuters + Claude)：98% 的法律研究准确率

财务

彭博 GPT：对 363B 自有金融代币进行培训
高盛马库斯人工智能（GPT-4 基础）：审批贷款速度提高 40

与普通模式相比，垂直化可产生 3.5 倍的支付意愿（麦肯锡调查，500 名企业买家）。

Llama 3.1：Meta 的开源战略

405B 参数，在许多基准测试中与 GPT-4o 具有竞争能力，完全开放权重。Meta 战略：基础设施层商品化，在产品层展开竞争（雷朋 Meta 眼镜、WhatsApp 人工智能）。

Adoption Llama 3.1：

首月下载量超过 350K
50 多家初创企业在 Llama 上构建人工智能垂直领域
自我管理托管成本：1.2 万美元/月与 5 万美元以上的应用程序接口成本相比，同等使用情况下的封闭模式

反其道而行之：Meta 在 Reality Labs 上亏损数十亿美元，却在开放式人工智能上投入巨资，以保护广告核心业务。

上下文窗口：争夺数百万代币的竞赛

克劳德十四行诗 4.5：20 万个代币
双子座 2.0 Pro：2M 令牌（市面上最长的令牌）
GPT-4 Turbo：128K 标记

Gemini 200 万个上下文可以分析整个代码库、10 多个小时的视频和数千页的文档--使用案例具有企业变革性。谷歌云报告显示，43% 的企业 POC 使用的上下文 >500K 标记。

适应性和定制化

克劳德项目与风格

自定义持续交叉对话指令
预设风格：正式、简洁、解释性
知识库上传（最多 5GB 文档）

GPT 商店和自定义 GPT：

已发布 3 百万 GPT，每月活跃使用量达 800K
顶级创作者的月收入为 6.3 万美元（收入共享）
71% 的企业在内部使用 ≥1 个自定义 GPT

双子座扩展：

本地集成 Gmail、日历、驱动器和地图
工作区上下文：读取电子邮件和日历，主动提出建议
2024 年第四季度开展 12 亿次工作区行动

关键：从 "单一提示 "到 "具有跨会话记忆和语境的持续助手"。

2025 年第一季度的发展和未来轨迹

趋势 1：专家混合物占主导地位所有顶级 2025 模型都使用 MoE（每次查询激活子集参数）：

推理成本降低 40-60%。
在保持质量的同时改善延迟
DeepSeek、GPT-4、Gemini Ultra 均以 MoE 为基础

趋势 2：原生多模态Gemini2.0 原生多模态（不是单独的胶合模块）：

同时理解文本+图像+音频+视频
跨模态推理："比较建筑风格的建筑照片和历史时期的文字描述"。

趋势 3：测试时间计算（推理模型）OpenAI o1、DeepSeek-R1：使用更多处理时间进行复杂推理：

o1: 每个复杂数学问题 30-60 秒 vs. 2 秒 GPT-4o
精确度 AIME 2024：83.3% vs 13.4% GPT-4o
明确的延迟/精度权衡

趋势 4：代理工作流程模型上下文协议（MCP）人类，2024 年 11 月：

人工智能代理与工具/数据库交互的开放标准
前 3 个月有 50 多个收养伙伴
允许代理建立持久的交叉交互 "记忆

成本和定价战

100 万个代币的 API 定价（输入）：

GPT-4o: $2.50
克劳德十四行诗 4：3.00 美元
双子座 2.0 闪光灯：0.075 美元（便宜 33 倍）
DeepSeek-V3：0.27 美元（开源，托管费用）

Gemini Flash 案例研究：从 GPT-4o 转换而来的初创公司人工智能摘要降低了 94% 的成本--质量相同，延迟相当。

商品化加速：2023-2024 年推理成本同比下降 70%（Epoch AI 数据）。

对公司的战略影响

决策框架：选择哪种模式？

情景 1：企业安全关键型→克劳德-十四行诗 4

医疗、法律和金融领域的失误导致数百万人丧生
宪法人工智能降低责任风险
以降低风险为理由的溢价定价

方案 2：高容量、成本敏感型→双子座闪存或 DeepSeek

客户服务聊天机器人、内容审核、分类
性能 "足够好"，体积 10 倍-100 倍
主要差异化成本

方案 3：生态系统锁定→谷歌工作空间的双子座，微软的 GPT

已投资生态系统
本地集成 > 卓越的边际性能
现有平台的员工培训成本

情景 4：自定义/控制→Llama 3.1 或 DeepSeek 打开

具体的合规要求（数据驻留、审计）
对专有数据进行大量微调
经济的批量自助托管

结论：从技术战争到平台战争

2025 年的乐虎国际客户端下载竞争不再是 "哪种模式理由最充分"，而是 "哪种生态系统能获取最大价值"。OpenAI 主导消费品牌，谷歌利用十亿用户分布，Anthropic 赢得安全意识企业，Meta 将基础设施商品化。

预测 2026-2027：

核心性能进一步趋同（~90% MMLU 均为前 5 名）
差异化：速度、成本、整合、垂直专业化
多步骤自主代理成为主流（33% 的知识工作者）
开放源代码缩小质量差距，保持成本/定制优势

最终赢家？可能不是单一的参与者，而是服务于不同使用群组的互补生态系统。正如智能手机操作系统（iOS 和 Android 共存）一样，不是 "赢家通吃"，而是 "赢家细分"。

对于企业：多模型策略成为标准--GPT 适用于一般任务，Claude 适用于高风险推理，Gemini Flash 适用于大量任务，Llama 为专有任务进行定制调整。

2025 年不是 "最佳模式 "之年，而是互补模式之间智能协调之年。

资料来源

2025 年斯坦福人工智能指数报告
人类学模型卡克劳德-十四行诗 4.5
OpenAI GPT-4o 技术报告
谷歌 DeepMind 双子座 2.0 系统卡
DeepSeek-V3 技术论文（arXiv）
Epoch AI - 机器学习的趋势
2025 年 Gartner 人工智能与分析峰会
麦肯锡 2025 年人工智能现状报告
皮尤研究中心人工智能应用调查
Similarweb 平台智能

促进业务增长的资源

2026年1月20日