“百模”争舸：群雄逐鹿的野心和背后的冷思考当前头条

21世纪经济报道记者蔡姝越杭州报道

在生成式AI的大浪潮下，各路AI大模型已然形成群雄逐鹿的局面。

(资料图)

今年以来，百度、阿里、华为、京东、360、网易等国内互联网厂商，争相公布了旗下的大模型布局。在众多厂商展开大模型“军备竞赛”，并纷纷落地应用之时，有哪些技术热点值得深入关注？国内大模型的未来发展趋势如何？

5月31日，依托中国人工智能产业发展联盟、人工智能关键技术和应用评测工信部重点实验室，由中国信通院联合人工智能工程化推进委员会大模型工作组、生成式人工智能工作组主办的“大模型技术应用”分论坛，于5月31日在杭州梦想小镇互联网村正式举办。

论坛中，多位产学界人士对目前国内大模型的现状进行了分析，聚焦大模型、生成式AI、对话式AI、知识计算、智能决策等多个热点技术，深入探讨相关技术、产品、生态等发展趋势。

高速发展下的新机遇

“百模”大战揭开帷幕，各领域AI大模型先后发布。大模型正从效率、质量、个性化等方面为内容生产带来改革，不断解放生产力。

其中，“涌现性”是生成式AI大模型的一大关键优势。“原本训练AI，可能需要人类‘手把手’去教学，机器才能学会某项技能。但在当下的发展阶段，在不与AI交互的前提下，这项技术也能够进行自主学习。AI技术所具备的‘涌现性’，也是它的一项突破性进展。”声智科技数智人产品副总裁黄赟贺在发言中指出。

据悉，目前AI大模型的架构主要分为两种，一种是Decoder-only（仅解码器），这一类架构的优势在于可以更容易完成文本生成任务，主流大模型如OpenAI开发的GPT系列、英伟达开发的Megatron-LM等均是采用此架构。另一种架构是Eecoder-Decoder（编码器-解码器），该架构可以更灵活地适应不同长度和不同类型的输入和输出序列，从而适应多种自然语言处理任务，谷歌研发的T5模型便属于此架构。

阿里达摩院机器智能技术创新业务中心负责人陈海青指出，许多大模型利用Decoder-only架构训练效率高的优势，使得底层数据量能够迅速扩展到庞大的规模。

以GPT为代表的大模型在近年来的快速演进和迭代，成为了该领域火热发展的缩影。在GPT1到GPT3的发展过程中，底层数据量从1亿飙升至万亿级别。“该模型每年平均有10倍的参数量变化，也成为了智能时代的‘摩尔定律’。”他说。

“大模型加速了通用人工智能时代的到来。而行业级大模型以及应用，其实是一个非常好的创业机会点。”百应科技技术负责人吴凯表示。他认为，一家科技型企业，技术和产品始终是企业的生命线，这就需要持续学习、不断加强人工智能的技术深挖。

因此，当一项新技术诞生并高速发展时，能否快速学习并深度应用，对于众多科技企业而言是一个“优胜劣汰”的过程。

拓尔思副总裁尹世杰指出，垂直场景落地正成为“百模大战”核心角力点。在垂直领域，模型基座、高质量数据、专业领域Know-How、真实场景闭环及用户反馈，是专业大模型成功的5大要素。

“百模”大战下的冷思考

“在我制定（今天的）演讲题目时，‘百模大战’的说法便已兴起。不难发现，在这过去的半年内，大模型领域的发展非常火热。但是我有一个问题要问一下在座的各位，这样的繁荣能够持续多久？”

在发言开头，拓尔思副总裁尹世杰便抛出了这样一个问题。

21世纪经济报道记者发现，在本次论坛中，与会嘉宾除了对国内大模型发展未来的作出展望，也分享了大模型在研发、升级过程中可能遇到的难点与迷思。

陈海青提到，虽然Decoder-only是多个主流大模型所采用的架构，但在进行训练的过程中，是对大量的未标注文本数据进行无监督预训练，因此较难找到高质量的数据，包括代码、人类的指令和反馈等等。

简言之，这类架构存在稳定性能的“先天不足”。因此，在ChatGPT正式发布之前，业内更偏向走Eecoder-Decoder路线。

此外，若定制大模型在专业领域中没有足够的切入度，也会失去实际应用的意义。尹世杰指出，若要做某个专业领域的大模型，就必须有专业领域的高手（参与研发）。以传媒、金融、安全领域的大模型为例，如果仅是套用泛化的、通用的功能，很有可能难以回答以上行业实际操作中遇到的专业问题。

除了训练因素，目前留给企业研发大模型的红利期和窗口期并不长，则是大模型发展面临的一大外部难点。黄赟贺便在发言中提到，目前B端客户（企业）最关心的点在于，在委托相关公司开发大模型后，需要多久才能够真正投入使用。“作为服务提供方，我们目前一般将大模型的交付周期控制在3个月，以求在短时间内进行交付，让企业快速体验和使用大模型。”

尹世杰也指出，无论是做toB或toC的大模型业务，能不能有实际的场景落地，以及落地以后能否给用户带来真实的价值，才是大模型发展过程中最关键的考验。