据文心一言发布已过去50余天,5月9日,百度工程师首次现场演示了“文心千帆”如何可视化微调大模型。
百度智能云方面表示,正在内测的“文心千帆大模型平台”,是全球首个一站式的企业级大模型生产平台,不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链。
(资料图片仅供参考)
3月16日,文心一言在万众瞩目中面世,而由于其演示的Demo为录屏,不少网友大呼“失望”,就连李彦宏也多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大。
近两个月的时间过去了,经过多次迭代升级和首批企业内测后,百度的底气似乎足了一些。
300余家生态伙伴参与内测,大模型推理成本降为十分之一
3月16日开始,百度智能云大模型平台便启动了首批企业内测,面向企业客户开放了文心一言API接口调用服务。并于3月27日,推出面向客户的“文心千帆”大模型平台。
据了解,文心千帆大模型平台具有生成合同、邀请函、数字人文案、直播文案、订机票、改行程等多种能力。例如在用户输入五一想从北京出发去云南玩五天等关键信息后,文心千帆除了提供行程攻略信息外,还会自动关联相关的门票和机票信息,对行程细节不满意时,也可以提出更改。
在收费模式上,文心千帆的推理服务调用以0.012元/1000 tokens收费,按调用输入输出总字数付费。百度集团副总裁袁佛玉透露:“截止目前,已有超过300家生态伙伴参与文心一言内测,在400多个企业内部场景取得测试成效。”
目前,文心千帆大模型平台提供公有云服务、私有化部署两大交付模式。
在公有云服务方面,将提供推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务,大幅降低企业部署大模型的门槛。
在私有化部署方面,文心千帆大模型平台支持软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施),租赁服务(提供机器和平台的租赁满足客户低频需求)三种方式。私有化部属能够满足对数据监管有严格要求的企业客户需求。
4月25日,在文心一言开启内测一个月之际,百度智能云曾表示,其已完成4次技术版本升级,相较最初版本推理效率提升了10倍,模型算力利用率提升了1倍,大模型推理成本随之降为原来的十分之一。
互联网产业时评人张书乐向记者指出,文心一言依托百度的庞大搜索数据和算法优势,其学习资料极为丰富,关键在于其学习方法(算法)上的迭代完善,能否支撑其从一个寻章摘句的“书虫”变为有独立思考能力的“优等生”。目前,文心一言的完善程度应该在国产大模型中是比较高的,而且依托“中文”这个护城河,较之国外大模型有更多地缘优势。
被质疑、被回怼,文心一言需要“螃蟹”的觉悟
虽然过去近两个月时间,但关于文心一言的讨论一直不断。
3月底,文心一言推出不到两周,便迎来了质疑声。有微博博主发文质疑其文生图功能抄袭“StableDiffusion”,同时在中文语义理解方面存在局限。彼时,百度方面回应称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。
随后,在接受36氪采访中,李彦宏表示,“早在文心一言发布之前,大家用文心一格(指代百度基于文心大模型的文生图系统)就能体验文生图这个能力。”
此外,李彦宏指出,“百度的文心一言和OpenAI差距可能在两个月左右”。这番言论却让王小川不以为然。
他直言,这肯定是平行宇宙里的李彦宏说的,不是我们这个世界里的。并指出,文心一言不可能和OpenAI差距只有两个月,如果真是如此,那肯定是另一个宇宙。他认为国内目前的大模型和GPT的差距不可能是2个月是三年。但这是很动态的,大家很努力就有可能快一些。
5月4日,李彦宏在内部活动中回应了此番争议,他表示,“说实话这有点断章取义,我后面紧接着还说,这不是重点,重点是这两个月的差距我们要用多长时间才能赶上,也许很快,也许永远也赶不上。”
同时,他认为,算力不能保证我们能够在通用人工智能技术上领先,算力是可以买来的,创新的能力是买不来的,是需要自建的。据悉,目前全球算力规模美国占34%,中国占33%,算力差不多。
在今天的演示会上,百度智能云云计算产品解决方案和运营部总经理宋飞表示,“大家可能会觉得堆积算力、写好代码、然后进行模型训练,把它跑起来就行了。实际上在训练过程中会遇到各种各样的挑战,很少有人能够使得一个大模型训练过程能够在连续一两天内不出问题。百度AI大底座可以为大模型提供高效、稳定的训练和有效的收敛。千卡加速比达到90%,资源利用率70%,开发效率提升100%。这是AI大底座为大模型的开发和应用带来的价值。”
从目前的实践来看,以文心一言为代表的大模型主要应用于B端,在张书乐看来,这主要是因为C端延伸存在难度。
他指出,一是个体用户需求太过庞杂、无序,难以有效满足不同层次用户使用需求;二是个体用户主流需求过于浅显。大多数C端体验仅仅是尝鲜,缺乏深度应用能力。就如办公软件在C端大多停留在文字处理一般,而少有人涉及深层使用,这让GPT的应用场景既杂且浅,缺乏战略纵深;三是可实现的多模态对于C端大多数用户而言较为鸡肋,加上目前的生成能力依然是“小升初”阶段,无法真正意义上满足C端用户所谓“一键式傻瓜操作”。
至于能否追上ChatGPT,百度需要培养AI原生应用的思维方式和理念,也需要有做“敢于吃螃蟹的人”的觉悟,争议和期待会在一段时间内共存。
正如李彦宏所言,“改变思维方式会是痛苦的,会经历各种挫折和煎熬,需要用毅力去克服这种惯性,用发现和探索的眼光来看待这个新的世界。”