南方财经全媒体记者江月 上海报道早年位列“AI四小龙”之一、作为专业AI开发商而备受关注的商汤科技,在本次大模型和AIGC潮中不甘落后。4月10日在上海临港新片区,商汤科技发布新款通用大模型“日日新”,剑指生成式AI中微软、OpenAI、谷歌、百度、阿里等竞争强手。


(资料图)

搭建大模型、形成产品生态、关注算力基建,也成为本场发布会的“名片式”亮点。商汤创始人兼CEO徐立和首席科学家王晓刚在现场演示了“商量SenseChat”机器人写代码、文生图、真人视频生成数字人视频数十种生成式AI落地应用,并解说其算力算法基础设施进展。

商汤科技近期股价受到生成式AI行业激励,于4月首三个交易日(4月3日、4日和6日)连续上涨已超过25%。AI研发支出和收入的平衡,继续吸引市场关注,AI盈利性备受期待。

提升AI盈利期盼

整场发布会持续大约1.5小时,商汤集中发布了多款深受市场期待、也同时直面国际龙头竞争者的产品。相关发布也紧系商汤核心业务板块,提升了市场对AI盈利性的期盼。

具有计算机科学博士教育背景的徐立承担了大部分演说和讲解任务。“科学家研究了人脑为何如此聪慧,原因在于其丰富的神经元网络。”由此切入,徐立介绍了商汤在算法、数据上的双重努力。

据介绍,本次商汤发布的大模型称为“日日新SenseNova”,取“持续更新”之意。这款最新的通用大模型提供的是to B服务,将为政企客户提供API接口。近期,百度旗下的“文心”、阿里旗下的“通义”均是国产大模型的领头产品,“日日新”的加入,令国产大模型市场的竞争更加激烈。

客户可根据实际应用需求,调用“日日新”大模型的不同AI技术能力,例如图片生成、自然语言生成、视觉感知通用任务与标注等。换言之,借助“日日新”,开发者可以进一步开发专用模型和应用。

市场十分期待商汤的新产品能提振该公司的各板块业绩。在2022年,商汤全年营收38亿元,不过仅研发支出就达到40亿元,反映AI开发当时仍然“入不敷支”。探究原因,寻求市场落地场景仍然是此前AI开发行业的“痛点”问题。

商汤的主要客户来自政企类客户和汽车开发商,目前对于AIGC(AI生成式内容)也有较大需求。据南方财经全媒体记者了解,商汤的汽车板块目前正在自动驾驶和智慧座舱双驾马车驱动下持续增长,去年,该业务收入3亿元,同比增长59%,对公司总收入的贡献由前一年的4%上升至8%。

而通过本次“日日新”的发布,商汤又称,视觉大模型得到性能提升,BEV环视通用感知算法已经进入实车量产阶段。

建成AI生态

在本次发布会后,不少行业人士表达了“超预期”的评价,并指出商汤进行了算法、应用、算力的生态建设,令其AI实力得到巩固。

“实时对话机器人没有纰漏,图生文效果比肩MidJourney。”一位关注AI产业的科技行业分析员向南方财经全媒体记者表示。他表示,这些直观的现场感受,对大众市场具有更强的冲击力,因为直面ChatGPT、MidJourney这些时下的“明星”产品。

这款备受关注的语言机器人被命名为“商量”。在现场,徐立进行了多轮实时的测试,包括要求“商量”进行编程,进行“求医问药”的咨询,以及实时将一份有关知识产权的法律文件进行信息归纳和最新信息搜索。

记者也在发布会上看到,名为“秒画”的文生图产品,支持中文提示词输入。比较特殊的是,当训练库中没有使用者心仪模版时,使用者可以自行上传一批图片进行“亲自”训练,在短时间后就可以用上“自定义”的模型来重新文生图。

另一款颇为引起观众轰动的产品,称为“如影SenseAvatar”,这是一款AI数字人视频生成平台。有商汤员工亲自演示了用自己本人形象生成AI数字人视频的过程,通过“喂”给模型一段5分钟的真人视频素材,就生成出来声音及动作自然、口型准确、多语种精通的数字人分身。有视频UP主随后直言:“这下主播和UP主真的要失业了。”

王晓刚谈底层技术

对于商汤本次的底层技术,市场也颇为好奇。王晓刚在发布会上坦言,通用人工智能(AGI)引领了二次革命,解决了过往AI“研发成本高,研发周期长”的问题。

“针对以往的人工智能系统,如果我们遇到新的任务,就要重新设计AI系统,采集样本,对模型重新训练。”王晓刚称,“但对于AGI模型,我们无需改变模型本身,通过设计合适的提示词就能覆盖海量复杂的开放式的任务,包括各种长尾任务。”

针对商汤的大模型开发能力,王晓刚称,商汤科技的底层训练是系统性的,例如分布式的训练优化,包括数据运行、模型并行的优化混合精度优化等等;又包括技术优化,这里面就涵盖了模型设计、模型训练,以及模型优化、模型服务等等。

“要研发出非常优秀的基模型,数据是必不可少的要素。”王晓刚又称,何为高质量数据?也就是根据客户的要求,对这些数据进行各种各样的任务标注。

王晓刚介绍,2019年,商汤首次发布了10亿参数的视觉大模型;2022年,发布了320亿参数的视觉大模型,这也是世界上迄今为止最大的视觉模型;2023年初,开源了书生2.5,这是一个拥有30亿参数的多模态模型。他称,“日日新”能力也是达到了千亿参数的级别。“所有这些积累,不同的模态,它的汇聚,促使我们正在去训练一个更加强大的多模态大模型。”

目前,商汤已经建立了“全栈”的大模型研发体系,并已在多个行业场景中落地。“场景的多样性,任务的复杂度,数据的丰富度均充分展示了我们大模型的能力和未来潜力。”王晓刚称。

推荐内容