号称“全能”的确不假。GPT-4o不仅能够实时处理文本、音频和图像,还采用全新的语音交互模式,大幅提升人机对话的响应速度,几乎与真人对话相差无几,它还会看人脸色、讲笑话……总之,AI更像人,甚至更像一个朋友了。在GPT-4o的“人性”背后,大模型正进入多模态发展的新阶段。模型不再追求长文本的单一的语言对话,视觉、语音乃至情感都成为模型参数中的关键。对如今的“百模大战”而言,这一变化是危机还是商机?
不少人有这样一个判断:2024会是推理的元年。据英伟达2023年财报电话会议披露,公司全年数据中心里已经有40%的收入来自推理业务,超出了绝大部分人预期。
让人没想到的是,推理端的爆发率先在大模型价格上卷了起来。今年5月,幻方、字节先后发布新模型,价格动辄市面上原有模型的1%。同时,智谱也官宣了新的价格体系,将入门级产品GLM-3 Turbo模型的价格下调了80%。
这样的趋势,同样也在国外发生。自去年以来,OpenAI已经进行了4次降价。在刚刚结束的春季功能更新会上,OpenAI宣布了其最新模型GPT-4o,不仅性能有大幅提升,价格也下调了50%。
那么,驱动这轮大模型推理成本下降的逻辑是什么?我们又应该如何理解推理成本下降对产业的意义?
降本超预期!GPT4一年降价超80%
从5月召开的发布会来看,各家在大模型价格上卷得越来越厉害了。
5月6日,幻方量化旗下DeepSeek(深度求索)发布第二代MoE模型DeepSeek-V2,该模型API定价为每百万Tokens输入1元、输出2元(32K上下文),价格为GPT-4 Turbo的近百分之一。
5月11日,智谱大模型官宣新的价格体系,新注册用户可以获得额度从500万 tokens 提升至2500万 tokens,并且入门级产品GLM-3 Turbo模型调用价格从5元/百万Tokens降至1元/百万Tokens,降幅高达80%。
5月13日,OpenAI发布GPT-4o,不仅在功能上大幅超越GPT-4 Turbo,价格只有一半。
5月15日,豆包主力模型为0.0008元/千Tokens,即0.8厘就能处理1500多个汉字,宣称比行业便宜了99.3%。在32K(千字节)以下主力模型中,每1000 Tokens(大模型文本中的一个最小单位)的企业市场使用价格,GPT-4(美国AI研究公司OpenAI旗下的大模型)为0.42元,百度文心一言和阿里通义千问为0.12元。
可以看到,大模型降价既有GLM-3 Turbo这样的入门模型,也有像性能接近GPT-4 Turbo的主力模型。而从OpenAI过去一年的动作看,降价也一直其升级的主线。
算上此次GPT-4o的发布,2023年年初以来,OpenAI已经进行了4次降价。去年3月,OpenAI开放了gpt-3.5-turbo,每1000个token的成本为0.002美元,价格比此前的GPT-3.5模型下降了90%。
到去年11月,OpenAI发布了GPT-4 Turbo的同时,也对整个平台的价格做出了调整。其中,GPT-4 Turbo输入tokens价格是GPT-4的1/3,为0.01美元/1k tokens(折合人民币约0.07元),输出tokens价格是其1/2,为,折合人民币约0.22元)。