“我劝过梁文锋很多次,DeepSeek要融资”

发布时间:2025-02-15 13:47 已有: 人阅读

  周日晚间梁文锋登上新闻联播,发酵了足足一周,颠覆全世界的“DeepSeek R1 550万美元训练成本”,只让周五英伟达的股价下跌3.12%,转过头来的下周一,却让A股创业板收获了根-2.73%的大阴线。当时我的评价是,DeepSeek打了英伟达们一个嘴巴,转头却更狠地踹了A股一脚。

   DeepSeek推出App版本,使用V3大模型,这是一个全开源MoE模型。DeepSeek报告称其V3模型的训练成本仅为600万美元,只有Llama 3的1%。1月20日,DeepSeek发布开源大模型R1,又以极低训练成本达到与OpenAI最新O1模型相近的性能。一天后,DeepSeek登顶苹果中美地区应用商店免费下载排行榜。

   “应该没有人能预想到DeepSeek会这么火。发布V3的时候,业内都注意到了,但因为当时 App没上线,所以还没有引爆C端。当应用发布之后,普通人都觉得产品效果好,DeepSeek便开始出现在街谈巷议之中。自然流量和买来的流量,这时候差异一下就显出来了。”一家机构的合伙人Jared说。

   任何产品的火爆离不开天时地利人和,时点很重要。在Eric看来,当下AI的上升曲线已经变缓,预训练的数据差不多用光了,大语言模型能力不再容易上升,只能转换思路转向以OpenAI的 O1和DeepSeek的 R1为代表的推理模型。“这个时候,是选择继续砸大钱去搏一个上限,还是不追求那5%的进步而是把成本降到原来的1/10?DeepSeek代表的降成本路线恰恰出现在一个合适的时间点上。”

   “六小龙”不走差异化之路

   将很难再融到钱

   “国内大模型训练的综合成本比美国低,而DeepSeek因为其出色的工程能力,更是把成本控制到极致。在未来两个季度里,DeepSeek会成为行业基准线,降成本是大势所趋。如果为了提高5%的上限,再花10倍的钱,从资本和商业角度考量,这是不值当的。”Jared认为。

   大模型过去烧钱凶猛,研发成本降低,首先动摇的是对这些企业的估值逻辑。

   Eric认为,DeepSeek之所以在海外引发这么高的恐慌情绪,正是因为那些大公司的估值要重新评价了。“过去大家相信,大模型本质上是资本的竞争,正如我们说2023年5月之前如果没拿到1亿美金,在国内就别搞大模型了。但当大家发现不需要那么多钱,大模型公司的估值恐怕很难撑得住。长期来看,估值是建立在你创造的价值基础上,短期来看取决于大家认为你的壁垒有多高。”

   王荣进则认为,DeepSeek出现后会不会对现有大模型公司估值产生影响,现在还不好说,但他们极低的成本对业内还是带来冲击。如果大模型企业能通过其他方式去创新降低训练或推理成本,估值受到影响或许比较有限。“不排除国内的公司通过其他方式去创新达到类似的效果,关于这一点也值得期待。”

   Jared的态度比较悲观。他相信,如果“六小龙”不走差异化之路,将很难再融到钱。大厂有资本加持,可以继续战斗,但创业公司如果在单一项目上卷不到第一,基本上没有太大意义。“当然,只要有差异化,并且不烧钱,苟活着也是个出路。”

   事实上,“六小龙”已经分化出不同的路径。有的公司仍在烧钱训练大模型,比如我了解到某公司去年收入3个亿左右,但成本却高达20多亿。有的公司已经放弃,比如零一万物已与阿里云成立 “产业大模型联合实验室”,不再追求训练超级大模型,但会继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用。

   “当预训练结果已经不如开源模型时,每个公司都不应该执着于预训练。”在 关于DeepSeek的共识和分歧

   DeepSeek已经被一些人视为“国运”的象征,但能否独占鳌头在投资人眼中仍有分歧。

   Jared相信,大厂很难做出DeepSeek那样的创新。原因在于,大厂资源过剩,反而就没有人会想着如何极致地优化成本。同时内部赛马严重,更多是在卷人,而不是卷事情。KPI通常被简化为“实现多少DAU”这一通过买流量就能实现的目标,也会导致大家很难扎扎实实做技术创新。而做对冲基金出身的人对资源和成本看得很重,总是在想着怎么工程化创新降低成本,这跟大厂的基因和技能点也不一样。

   但Eric认为,在那些明星创业公司里DeepSeek会长期居于第一位,但还很难说DeepSeek比阿里和字节的大模型厉害,从所采用的技术范式上来看,理论上OpenAI的O1的范式上限要高于DeepSeek 的R1。“到底应该省钱,还是追求高上限,这是一个选择问题。放在国内来讲,大家的能力都很强,只不过侧重点不一样,豆包和通义都做了多模态模型,DeepSeek做得更聚焦,只做语言模型,它最强大的地方还是在于省钱。”

   春节期间,轩元资本创始合伙人王荣进一直在找资料研究DeepSeek的底层逻辑。在他看来,DeepSeek在应用、工程、架构等多个方面做了很多创新。至于市场讨论的借鉴方面,他觉得这也没什么,OpenAI的Transformer源于Google,苹果的iOS部分参考了富士施乐,微软的Microsoft的GUI部分参考的是富士施乐的Xerox Alto,大家都是站在巨人的肩膀上更进一步。”

   外媒的描述更有意思。有的媒体将OpenAI和DeepSeek之间的不同路径比作17世纪英国内战中“错误但浪漫”的保皇党与“正确但令人反感”的圆颅党之间的冲突。人工智能保皇党不惜一切代价追求AGI,而人工智能圆颅党专注于更实际的目标,尽可能高效地解决特定问题。海外有关大模型融资的最新消息是,Ilya Sutskever 创立的Safe Superintelligenc正以200亿美元估值洽谈融资——仍然是一个昂贵的价格。

   弥漫在行业上空的还是一团迷雾。“连着几年,大模型在年初都有让人震撼的新进展,而且往往年初和后面发生的事情脱节,所以现在谁也不能预测年底到底会发生什么。”Jared说。

   Eric认为,R1代表的这种后训练模型模式刚刚开始,DeepSeek只是在中间提出了一个分叉,到底会跑成什么样还不知道,但毫无疑问创业的需求会急剧加大。在他看来,DeepSeek更重要的意义在于带来一种全新的价值观。“他们的目标不是说赚多少钱,而是能不能做出有价值的创新,这个价值观值得中国企业尤其是大公司思考。”

   正如梁文峰在中所说,“以后硬核创新会越来越多。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。”过去四十年,房地产和互联网的造富运动都并非由底层创新驱动,而只有当人们看到回报和付出有一定的关系,投机才不会成为中国商业社会最大的价值观。

   “2025年,AI应用会迎来爆发之年。”

   这是我在去年年底从投资人和FA口中听到的最多的观点,甚至有投资人明确表示:2025年只看AI应用。

   春节过后,有了DeepSeek这把火,投资人和企业们对于AI应用的期盼更加强烈了。但兴奋之余,他们眼中也难掩迷茫:知道机会来了,可看不到机会在哪儿?

   需要承认的是,面对DeepSeek带来的变革,大部分公司都没来得及在战略层面做调整,但从行动来看,都在紧急围绕DeepSeek开会。也有投资人表示,开工之后接连两天,都在开关于DeepSeek的会,已经做了紧急部署。

   提到DeepSeek,很多人的第一印象是高性价比。单就这一点带来的影响,业界也并未达成一致。

   TrainiCEO孙邻家认为,“技术过度平权不一定是好事,会失去创新的驱动力。现在看来,2025年是一个从闭源套壳转为开源套壳的年份,造成的结果可能是出现一堆同质化产品,依然找不到盈利的方法。目前,能做Fine-tuning的公司没有想象中的那么多,能持续做并且有创新的就更少,缺数据和人才。”

   当然,他也承认,模型变小和经济性提高,对应用肯定是积极影响,但是在应用侧,技术不是最大的制约,而是对产业的理解。

   其实,现在Prompt已经可以满足很多应用的需求了,似乎没有做出什么好产品。如果因为iOS闭源,我们有了安卓系统,也没有出现很多手机品牌。在安卓上长出的软件应用也没有iOS和其应用。Llama的能力也很强大,可以满足多数应用的需求,离我们期待的也差很远。

   更多的人还是愿意看到DeepSeek给应用端带来的积极一面,比如有投资人指出,DeepSeek出来之后,做应用的厂商只需要专注在应用本身的前后端交互体验,同时再基于场景做打磨就可以了,这省去了很多基础层面的投入。

   合思创始人兼CEO马春荃指出,AI的发展就像电力的发展一样,会催生出非常多的应用的厂商,这是一个基础的能力。DeepSeek的出现把这种基础能力的成本变成白菜价。

   他进一步解释称:很多原来舍不得用AI的地方,现在可以去进行探索和创新,因为当下AI在算力上的消耗成本,相比于客户价值或者输出结果相比,已经是九牛一毛了。比如在小票识别领域,我们过去只敢小小批量应用,如今几乎变成了零成本,我们就可以“肆无忌惮”地应用了。

   需要指出的是,究竟是C端应用还是B端应用更能让VC们青睐时,我从投资人那里得到了统一的答案——那就是to B应用更具投资性价比。

   就连非投资行业的企业内部人员,也认为今年DeepSeek相关项目在投资市场会比较火爆,因为在他们看来,完全开源的DeepSeek,会加速很多细分场景模型的诞生。

   首先,B端用户是最具付费能力的,而且所有B端应用都还是沿着原来企业软件的思路,也就是说每个领域都将有自己的大模型。这是因为不同领域间的数据库和知识库存在差异。

   但当下的问题是,应用厂商自己不做模型,看不到需求和效果,更重要的,应用创业不同于大模型,投资人们不会给企业很多的时间和资金来试错。

   同样,现在还无法预测哪些场景会爆发,只能说这些细分应用的出现正在加速。

   其次,成本低了,之前只能在实验室里进行的,可以应用到每个角落。换句话说,当前很多没有被AI覆盖的场景,会有更多的厂商用非常低成本的AI去进行改造。

   在国科嘉和高级合伙人陆佳清看来,如果有特色应用能够出现,那可以很快起量。尤其是有应用场景的上市公司,之前打造一个行业应用可能需要几百台服务器,现在只需要十台,成本骤降。

   第三,AI应用肯定会越来越多,而且会占据市场更多的眼球,因为眼下应用还没有实现真正大规模的商业化。

   对于为何不会选择C端产品,这是因为投资人们有这样一个共识——C端应用迟早是大厂们的天下,这在之前是有迹可循的。

   除了应用层外,在更底端的硬件层也在发生巨变。比如为了承接住DeepSeek带来的流量洪流,此前各地建造的闲置计算中心也被盘活了,相关从业者表示,这些计算中心当下已经开始产生收益。而DeepSeek本身也因为此前浙江省建造的数据中心获益。有接近DeepSeek的投资人表示,自从节前爆火后,浙江将很多空余的数据中心低价给了DeepSeek。

   据某云服务厂商的体感来看,上线了DeepSeek R1版本之后,用户的注册量有一个非常明显的提升,一两天内注册量增长了一个数量级,大约是10~20倍的水平。而这些注册用户主要分为两类,一类是个人开发者,他们会去验证自己的一些创新思路,另一类是企业的开发人员,这类用户则更多是想通过AI与业务结合做创新应用。

   在这个领域,业界也存在着一些非共识。

   “DeepSeek的出现短期内可以颠覆对算力的逻辑,但长期来看,AI和应用的蓬勃发展,必然带来总体需求的增长,算力还是有价值的。当然,对于国产GPU来讲还是偏利空的,因为低制程的芯片可以用了,市场就不需要存在那么多家了,未来能够上市的也将只有一两家。对于其他国产大模型公司也是偏利空的。”陆佳清如此判断。

   另一位芯片投资人表示:“这对芯片行业算是绝对利好,核心在于可以用算力比较低的芯片做出很好的训练效果,这意味着很多芯片厂商能够获得相关订单。同时,越低的训练成本越有助于人工智能在应用领域的渗透。”

   作为专注于智能汽车产业链的投资机构,王荣进也会关注DeepSeek是否会对智驾格局产生影响,会不会引起其他公司快速迭代,冲出一条新的路出来,从而导致相关标的的估值的重估。

   关于DeepSeek带来的变革和机会,我相信远远不止上述讨论。更重要的是,DeepSeek的崛起不仅是一次技术迭代,更带动了国内目前最稀缺的东西——信心。我不由想起了

热门推荐
图文推荐
  • 苹果可能将iPad,Apple TV与HomePod合并,以
  • 三星的下一代Galaxy Z Fold折叠手机的屏幕可
  • 微信支付分怎么提高分数 分享微信支付分提高