「产模结合」也许是AI公司更好的出路?
前段时间,腾讯新闻的两篇访谈在AI创投圈引发热议。
某VC从业者与某大模型创业者对「大模型创业」的看法截然不同。前者被认为是“急功近利派”――他不看好大模型创业,认为现阶段大模型公司缺乏场景和数据、估值过高、面临开源模型的竞争、投资风险大,所以他更倾向于投资能快速商业化的应用层项目。
而后者被认为是奉行“长期主义”――他坚定看好大模型创业,认为这是未来十年唯一有意义的事情,需要长期投入和坚持,目标剑指AGI。
其实,作为投资人与作为创业者两人所处的位置和背景不同,视角自然迥异,各有偏向。一定意义上,两者都可以被认为是“长期主义”,前者追求短期的“苟且”也是为了长期的可持续,而后者所谓的“长期”更可能是因为对难以规模化落地的现实无能为力。
但他们之间的分歧,凸显了做「产品」的公司与做「模型」公司之间巨大的鸿沟。
一方面,大模型公司在算力和人才上烧钱速度快,“卷”模型停不了脚步,但落地应用和服务营收却举步维艰。除了少数头部大模型公司受到资本市场的青睐被持续输血,百模大战中以模型起家尚未找到规模化落地应用和营收的多数公司面临着严峻的资金断流的形势。
另一方面,相当一批跃跃欲试的领域专家和产品公司都在试图对接第三方大模型,试图以大模型赋能千行百业。但迄今未见规模化成功的案例,除了大模型头部公司自己下场的类ChatGPT应用以外,大模型时代的 Super Apps 呼之不出。
调用外部大模型开拓产品服务的公司面临的一个挑战是:他们辛苦开拓的落地场景有被通用大模型更新换代而冲刷的危险。Jasper 的式微是一个代表性案例。不久前OpenAI 发布了新一代的视觉大模型Sora,业界惊呼 Sora 很快会淹没一批主攻AI视频产品的初创。
那么,是否有一条路径,同一家公司在产模两端发力,实现从TPF(Technology-Product Fit)到PMF(Product-Market Fit)的跃迁,让模型、产品、市场三位一体,真正实现闭环?
出门问问践行的「产模结合」(又称“产模一体化”)或许是这样一种创新的AI商业化思路。
而实际上,出门问问这类公司凤毛麟角。在众多入局生成式AI玩家中,我们发现了这样一个现象――往往做产品的公司鲜少拥有自己的大模型,更多是接入GPT、Claude、Llama等模型的API接口;而很多做大模型的公司也并没有自己的成熟产品,只是提供最基础的模型接入服务或“模型即产品”。
绝大多数产品公司都在生态下游,少数大模型公司是他们“模型即服务”的供应商。尽管也有一些公司在做「产模结合」(即产品与模型双线并行)的事情,但市面上这样的优质供给并不多见。
这不禁使我们思考:「产模结合」究竟如何定义?为什么做大模型的公司通常做不好产品?而做产品的公司又做不了模型?「产模结合」对于大模型落地应用AIGC有什么独特的优势呢?真正的「产模结合」究竟难度几何?
一、什么是「产模结合」?
「产模结合」是出门问问创始人兼CEO李志飞提出的新概念――「产」指AI产品,「模」指AI大模型,这不仅仅是文本大模型 LLM,而更是大一统的多模态大模型(LUM:Large Unified Model)。
「产模结合」,即产品和模型一体化,如果一家公司既有产品、又有模型,那么这家公司就更有机会形成数据飞轮,具备更强的核心竞争力。
李志飞认为,之所以「产模结合」这么重要,是因为产品对于模型来说,有一个非常重要的「定向」或「灯塔」作用,为模型的研发指引方向。产品的需求可以倒逼模型能力的优化方向,也更容易检验模型能力的实际表现。有了产品,就有了大模型的聚焦,而不是漫无边际地拓展大模型的能力边界。
而一味炼模型所需要的巨大投入以及难以落地造成的资源只出不进,是绝大多数创业公司无法承受之重。不断拓展大模型的能力边界是一项人类AGI征程上的伟大事业,但这个方向对于人才密度、资源厚度具有极高的要求,这条路只有极少数巨头(谷歌、微软等)以及有巨头或巨资撑腰的初创宠儿(如 OpenAI、Anthropic)才有可能走下去。对于绝大多数创业者,持续烧钱而不赚钱,注定难以为继。
当前大多数中国公司,缺乏这种“漫无边际的研发”能力。“漫无边际的研发”需要极度宽松的环境、极强的自驱力与设定宏大目标的能力,这种能力只有OpenAI和谷歌这种人才密度极高的公司才具备,大多数中国公司其实是不具备的。
即使通过砸钱做出来超大模型,因为缺乏这种思维方式,在模型天花板的竞逐中,前景也比较渺茫。李志飞说,“产模结合更加适合中国的大模型创业,产品就是一个为你指引方向的海上灯塔,你知道要自己的模型要努力向哪里航行,让模型与落地应用更容易对齐”。
通俗地说,「产模结合」的要义是目标驱动,具体说来:以产养模,以产馈模;以模促产,以模护产。
为什么要“养”模,因为大模型像个吸金黑洞,国内的投资环境也不乐观,多数创业公司如果没有自己产品的造血功能,想依赖一轮接一轮的融资,是不可持续的。应用产品测的反馈,无论是bug report,还是场景数据(包括用户偏好),对于模型的闭环健康发展以及建立场景应用的护城河都是极为重要的。“以模促产,以模护产”说的是,有自研大模型的内功及其最新模型的追随能力,可以为产品保驾护航,免遭通用大模型升级换代的降维打击。
“产品和模型结合,是更好的模式。如果一个公司只有产品没有模型,它会失去底层的发动机能力,但如果一家公司只做模型而没有产品,那么就像没有灯塔,容易走向漫无目的的探索之旅。”李志飞表示。
在出门问问内部,此前也经历过无数次自我叩问――“为什么一定要做自己的大模型,而不是调用其他巨头的大模型?”
另一方面,“既然有能力做大模型,为什么不聚焦做通用大模型、与BAT直接竞争?而是要在大模型基础之上不断推出并迭代自己的AIGC产品矩阵呢?”
在一路不断炼模型和打磨产品的过程中,出门问问不断复盘思考着「产模结合」带来的益处和挑战。
二、「产模结合」可以带来三大好处
最显而易见的是,产模结合对于“效率”的提升是毋庸置疑的。
首先,拥有自己的模型,产品问题可以得到快速响应。很多公司的产品面向海量用户,难免遇到紧急的需求或者问题。当出现紧急情况的时候,有自家模型的公司可以快速响应,及时修改底层代码或数据,做到第一时间响应需求、解决问题,而调用其他大模型的公司,往往难以做到如此的反应速度。
其次,自己的模型让成本更可控。在当下主流的Maas收费模式下,比起那些只能依靠调用外部大模型API来做产品的公司,有自己模型的公司可以降低产品开发和运营的成本,无论是对于模型的继续训练、微调、RLHF、In-Context-Leaning 的模版设计,还是为了应对实时推理环境下高并发的需要对模型所做的“蒸馏”。
第三,产模结合的公司可以做到针对用户需求的可配置能力的开发。针对不同场景的专有数据的条件和用户对于数据安全的concerns,我们可以灵活地进行微调和优化, 快速实现特定领域、特定场景下的可配置模型的开发, 满足不同行业客户的独特需求。这包括智能体外挂、场景配置以及灵活部署,例如让数字员工适配不同的大屏(硬件)。这样的灵活性带来了效率的提升和品质的保障,也为产品的快速迭代(例如,至少常规保证周迭代)成为可能。
但以上这些效率的提升虽然很重要,但并非「产模结合」的长久绝对优势,假以时间、努力或条件,未必一定要亲自做「产模结合」才可以达成。
而产模结合最大的魅力,更在于它能够实现更彻底的端到端训练,进而形成「数据飞轮」效应,最终实现让数据自动驱动模型和产品的更新迭代。
传统AI产品的一般采用过程性的管式(pipeline)系统架构,模块层层依赖、串联,Input 与 output 两端之间有很多中间结果,模块化的链路很长。
这种AI应用有其固有的优势,包括实现难度可控,过程透明,定点纠错,开发人员对此套路也驾轻就熟。然而在大模型新范式下的研发追求的是端到端数据驱动,以模型训练替代pipeline的过程性,这是实现真正意义上的数据飞轮闭环的必要条件。理想的大模型产品在产品架构定型上线以后,产品的迭代提升可以随着流程化的回流数据自动训练增强。长远一点看,新范式下端到端训练的系统对于传统的管式系统具有碾压性的威胁。
端到端方向对产模分离的架构构成了巨大的挑战。而产模结合则为此提供了可能性。一方面,产品矩阵源源不断地收集经同意的用户反馈“埋点”数据,反哺一体化大模型的人类对齐训练,模型的数据质量会随之提升;另一方面,不断迭代的模型可赋能产品能力的提升和体验的优化,越来越对齐用户期望和需求的产品会吸引更大的用户群,带来更多的数据回流。以此构筑的数据壁垒和用户壁垒,才不至于被通用大模型的升级换代而碾压。
如此循环往复,「产模结合」策略就像一台永不停歇的“增长引擎”,推动公司在AIGC赛道上越跑越快,建立起难以逾越的竞争壁垒。掌握从模型到产品、从产品到模型的数据闭环,才有机会真正主宰AIGC时代的未来。
比如出门问问的声音大模型与魔音工坊产品,就典型地体现了「产模结合」数据飞轮效应。一方面魔音工坊自身的用户数据昼夜不息地反哺着声音大模型的训练,另一方面,声音大模型让魔音工坊不断自我突破,有着“超写实”自然音色的惊艳表现,吸引着全球数以百万计的用户深度玩转。
目前,魔音工坊已在全球范围内拥有超过800万用户,约60万付费用户。这样规模的市场占有对于AI配音赛道是难得的商业成功案例,没有产模结合的优势是很难达到的。出门问问的AIGC全栈产品都在沿着建立数据飞轮的道路上推进。
纵观人类的AGI征程,这是一场追求极致的技术探索之旅,“漫无目的”容易让人迷失方向。而有着实际数据指标的「产品」则像一座灯塔,为航行中的游轮指明方向;「多模态大模型」则如同游轮的发动机,为不同模态的多艘游轮提供源源不断的动力。
有了灯塔的指引,游轮才不会迷失于深海,才能沿着既定航线稳打稳扎,循序渐进,最终抵达彼岸。
反观许多专注于通用大模型的公司,他们虽然拥有强大的“发动机”,也往往在大模型刷榜中居于前列,但却缺乏“灯塔”的引领,难以真正落地,难免陷于“漫无目的”的困境。
三、真正做到「产模结合」有多难?
产模结合虽好,真正实现起来却非易事。
这就涉及到了我们在文章开篇提到的观察――为什么做模型的公司常常做不好产品,而做产品的公司往往做不了大模型。
做模型的公司常常做不好产品,这或许与AGI时代大模型公司的组织特点有关,也有追溯到公司文化与基因的说法,亦不无道理。
大模型作为AIGC领域的基础层,涉及到了数据处理、计算资源、算法优化、可扩展性、安全性等技术的方方面面,需要强大技术团队的支持,才能保证模型的性能和体验,这也就导致了大模型从业者往往是一群有着极客精神的“技术狂”,他们对算法有着非同寻常的痴迷。
然而,这种极客精神也成为他们做产品的障碍――他们要么“以技术论英雄”,认为模型性能至上; 要么“以技术傲天下”,觉得应用落地是水到渠成的事。
这种“极客社恐”的背后,往往伴随着用户思维和产品思维的缺失,是对真实用户的隔膜。
他们习惯于在象牙塔中追求极致的模型,却不懂如何走出象牙塔,拥抱市场、拥抱用户,这也是为什么我们看到许多大模型公司力主开放平台,却很少看到他们推出爆款应用的根本原因。
为什么做AI产品的公司也很难做大模型呢?其背后的主要原因也是“人”,或基因。
与纯粹的大模型公司相比,许多专注AI场景的产品公司面临的困境是――他们虽然有过人的产品思维和用户洞察,却苦于缺乏大模型研发的技术、资金和人才。
诚然,产品研发可以由小团队轻量化运作,快速迭代。但大模型的训练和优化,却对算力、资金和人才有着极高的要求。缺乏雄厚的技术积累和资源储备,仅凭一腔产品热情是远远不够的。浅表层的大模型应用挑战不大,但要想深耕大模型的规模化应用场景,追求极致效用,缺乏大模型的专才和技术积淀,在竞争中就难免处于劣势。
这就像是一群注重体验的“产品社牛”, 他们洞悉用户需求,渴望用AIGC改变世界,却苦于没有强大的模型“武器”来装备自己。无奈之下,只能依赖第三方的开放平台和API。但这又限制了他们的创新空间和差异化优势,无法真正塑造行业标准和生态规则。
能将看似水火不溶的两者融为一体,需要工具理性与人文感性的统一,而这种结合向来艰难,正如兼具文理思维的人不多见,而能很好将“极客精神”与“产品思维”结合起来的AI公司也屈指可数。这是两类背景、认知,甚至审美趣味和体验标准都非常不同的人才,需要有不拘一格的伯乐精神才能聚拢他们,合力打磨AI产模结合的应用极致。
四、出门问问率先跑通业界少有的「产模结合」之路
李志飞带领的出门问问,就是一家最早在「产模结合」道路上开疆拓土的公司。
不同于大多数仍在融资烧钱、大炼模型的公司,出门问问早在2020年即拥有自研中文大模型,并在技术领先的条件下始终坚持产品驱动和用户驱动,且率先跑通商业化,是为数不多做到了“技术、产品、商业化”三位一体的公司。
早在2020年,出门问问就开始了大模型 UCLAI的研发,对标当时的 GPT-3 。同年,出门问问推出AI配音平台「魔音工坊」,也是生成式AI在中国的首款商业应用,位列「AI产品榜」Top 5。
2022年底,以ChatGPT为标志的大模型全面爆发,出门问问随之深耕通用多模态大模型「序列猴子」,它以语言为核心,能力体系涵盖“知识、对话、数学、代码、思维链、规划”六个维度,能够同时支持文案生成、图片生成、3D内容生成、语音生成以及多模态识别理解等任务,集多模态编码解码与自然语言理解、知识、逻辑推理能力于一体,并可以基于这些能力进行对话。
在「序列猴子」多模态大模型的坚实基础上,出门问问探索了多款面向创作者的AIGC全链路产品及应用,除了作为旗舰产品的AI配音平台「魔音工坊」以及「魔音工坊」海外版「DupDub」之外,还有一站式数字人制作平台「奇妙元」、企业AI交互式数字员工生成平台「奇妙问」、短视频自动生成平台「元创岛」等,形成了横跨模型层和应用层的一站式AIGC产品矩阵。
真正意义上的「产模结合」首先要基于对大模型技术商业化的深刻理解,坚持产品驱动和用户驱动,擅长利用闭环AI生态系统,基于用户需求和反馈对模型做创新和优化。出门问问早已区别于传统的项目制模式,实现了以产品为导向的增长,真正实现技术―产品―商业化的三位一体。
在出门问问身上,可以窥见到「技术极客」与「产品社牛」的跨界与融合,积淀成公司文化的特有基因。
在产品基因方面,出门问问是行业公认的“产品极客”。多年深耕AI应用市场,锤炼了极致化的产品力,无论是倍受全球消费者爱戴的智能手表TicWatch,还是全栈式AIGC产品矩阵,都已成为行业标杆类产品。
在模型人才方面,早期的技术祭奠,出门问问招募和培养出一批经年磨练的算法技术人才。他们脚踏实地,深耕大模型,锻造出多模态大模型序列猴子,不仅模型性能在百模大战中居于前列,更重要的是其对AIGC场景的适配性远超同行。
在资金方面,出门问问没有比拼算力、疯狂烧电烧钱来炼大模型,也没有去融巨资做万亿参数的超大模型,而是一直践行“以产养模、以模适产”的路线,通过AIGC产品的商业化运作,推动「产模结合」的纵深发展。
如同所有探索技术边界的公司一样,出门问问也一直在技术的深水区中航行。通过不断地摸索和试错,探求「产模结合」的最佳方式,大大小小的坑趟过很多,积累的教训与成功经验一样,成为出门问问AIGC应用路上的财富。
比如,出门问问的一站式数字人平台「奇妙元」和企业AI交互式数字员工平台「奇妙问」就是模型的“灯塔”,为优化这两款产品的能力指明航向。出门问问不断优化基于大模型的数字人系统,如今的第四代数字人系统――基于多尺度3D模型的WetaAvatar 4.0,通过整合「序列猴子」的强大文案生成能力以及「魔音工坊」的超写实语音合成技术,进一步强化了数字人的呈现效果,实现高度仿真的外观,同时还精心打造了生动的表情,媲美真人。
在今天这一AI技术进化曲线异常陡峭的“内卷外卷”的时代,对于每个公司个体,生存是第一位的,能在市场先站住脚跟,有造血功能,才有可能进一步发展壮大。资源可以靠融资,但资本市场也日益谨慎、越来越把关注力集中在商业化的可行性上。更稳妥的途径是通过技术―产品―商业化的自我闭环来获取资源,发育自身的造血功能,以产养模。难能可贵的是,出门问问主动选择并率先实现了这一途径。
「产模结合」是一条需要综合实力的赛道,是一个融合了两类人才的熔炉。
唯有以过硬的产品力为先锋,以前瞻性的大模型为后盾,以能“造血”的资本为粮草,才能在这条赛道上稳步前行,甚至做到以“小”(参数)博“大”。
在众多AI公司的「产模结合」实践中,出门问问的经验值得研究和借鉴,也愿其在逐浪AI中持续穿越周期,不断推出更多立足于数据飞轮的AI产品和服务。
目前,出门问问已通过港交所聆讯,成为在这一波AI浪潮中跑通商业化并率先实现盈利的AI公司,将成“AIGC第一股”。
继续浏览有关 人工智能 的文章