2026世界杯欧赔 一台手掌大小、300克的AI主机,为什么能跑122B模子?



“当AI原生征战成为Agent新物种主力,底层算力也正在加快重构。”
作家丨包永刚
裁剪丨林觉民
把一台能运行122B大模子的AI主机塞入口袋,需要付出什么代价?
往时泰半年,端侧AI硬件的逻辑正在发生变化。
两个月前,国内掀翻一场征象级的土产货部署Agent振作,宽绰AI爱重者运行“养虾”,让原来偏小众的Mac mini不测出圈,一度出现溢价和缺货。在更硬核的开发者圈子里,三四万元的DGX Spark相通热度不低,因为它也曾有时在土产货运行千亿参数模子。
Mac mini和DGX Spark同期走红,背后其实指向的是团结个趋势:Agent正在赶快举高端侧AI硬件的门槛。
此前,40TOPS级别的AI PC,仅能完成对话、生成等轻量任务。但插足Agent时期后,开发者运行追求更大的模子、更永劫辰的土产货推理,以及确实有时承担坐褥力任务的端侧AI征战。
问题随之出现。Mac mini鼓胀酣畅、低功耗,却很难复古更大的土产货模子;DGX Spark领有强悍性能,但价钱、功耗与散热,又很难确实走向民众化。大算力、低功耗与小体积之间,似乎长久难以兼得。
Agent时期确实短少的,不再仅仅一台更强的AIPC,而是一种有时7×24小时运行、低功耗、酣畅,并具备土产货扩充智商的新结尾。
一种介于AI PC与AI责任站之间的Agent Computer出现了。最近发布的梦想AI主机P7,仅300克、30W功耗的征战,领有190TOPS端侧AI算力,能在土产货运行122B参数模子。
01
AI 2.0时期,
需要奈何的Agent Computer?
传统AI更多如故一问一答式交互,任务收尾后,模子也随之罢手运行。但Agent不同,它需要耐久在线、握续调用模子、自主拆撤职务,并在土产货完成挂念、推理、扩充等一整套流程。
这意味着Agent征战比拼的,不再仅仅瞬时性能,而是耐久踏实运行智商。
换句话说,AI 2.0时期确实需要的不是AIPC的通俗升级版,而是一种介于AI PC与AI责任站之间的新结尾,它既要具备运行大模子的智商,又必须兼顾低功耗、静音、小体积,以及7×24小时握续责任的踏实性。
梦想AI主机P7,恰是在AI 2.0需求下出身的Agent Computer新物种。它既尝试接近DGX Spark的大模子坐褥力智商,又保留了雷同Mac mini的低功耗与静音特点。

P7领有190TOPS异构AI算力(dNPU+SoC),其中160TOPS来其后摩漫界M50 dNPU,30TOPS来自此芯P1 SoC。整机最高支握122B参数模子土产货部署,最高可设立80GB RAM,并支握128K盘曲文窗口。
在无网环境下,P7土产货自主推理速率最高可达50 Tokens/s,不错竣事7×24小时迎阿扩充Agent任务。
围绕Agent耐久在线需求,P7的机身独一手掌大小,分量约300克,致使不错径直通过充电宝供电运行。为了在小体积下竣事握续踏实运行,P7还将整机功耗为止在30W以内,并将运行杂音压低至35分贝以下。
这意味着,梦想AI主机P7也曾运行确实具备土产货坐褥力价值。
更重要的是,与传统PC+AI的念念路不同,P7并不是在原有征战中增多AI功能,而是围绕Agent场景重新界说结尾逻辑。
举例,P7采选了一机双模遐想,在智能体模式下,土产货运行天禧Claw,将复杂任务尽可能留在土产货扩充;在大模子模式下,则通过开放API Key接入种种AI利用与智能体,径直承担土产货推理与Token生成智商。
P7的推出代表着往时独一高功耗责任站本事承担的大模子土产货推贤人商,运行有契机插足更低功耗、更低本钱的微型征战。
而独一当大模子推理有时在低功耗、小体积条款下耐久运行,Agent才有可能确实从少数开发者征战,缓缓走向更平时的消耗级与行业结尾场景。
复古这种Agent Computer款式成立的,是P7背后一套不同于传统GPU阶梯的新算力决议。
02
千亿模子装入口袋之后,
算力逻辑也变了
梦想在P7立项初期就也曾明确,要作念一台能放入口袋、又能土产货运行大模子的AI主机。这意味着它的芯片必须同期悠闲三个险些互斥的条款:大算力、低功耗、小体积。
传统AI芯片很难同期兼顾这些需求,中枢在于数据搬运——猜测打算单位与存储单位物理辩认,2026世界杯数据统计数据在两者之间通常流动,带来极端的能耗与蔓延。
AI芯片行业因此束缚探索新的架构旅途,其中一个正在被越来越多厂商探索的地方等于存算一体,存算一体让数据在存储侧就近完成猜测打算,从而减少搬运支出,进步举座能效。
梦想聘用引入存算一体架构芯片,算作P7的主要AI算力起原,也等于dNPU(Discrete NPU),它雷同于颓败GPU的定位,领有更强的AI性能。
这颗dNPU,恰是后摩智能在2025年推出的存算一体AI芯片——后摩漫界M50。
后摩漫界M50采选存算一体架构遐想,具备160TOPS物理算力,配备最高48GB内存与153.6GB/s带宽,典型功耗仅10W,能效达到传统架构芯片的5~10倍。

雷峰网了解到,M50在遐想阶段就针对大模子部署进行了优化,通过SRAM与48GB LPDDR5的组合决议,在兼顾性能的同期,进步了千亿参数模子的可部署性与本钱可控性。
确实的挑战不啻于芯片,而是怎样让千亿参数模子在一台300克级别的征战上耐久踏实运行。这需要梦想与后摩智能在土产货Agent系统、推理框架以及软硬件协同层面进行深度合作。
尤其是在Agent扩充链路、模子迤逦与端侧资源贬责上,梦想需要一套全新的系统智商来复古握续运行的AI任务。
从2025年下半年名目认真启动运行,梦想与后摩智能组定都集团队,围绕硬件遐想、软件适配与推理框架伸开了长达十多个月的都集攻坚,最终竣事了在后摩漫界M50上运行千亿参数大模子。
当今,P7也曾支握千问、智谱、DeepSeek等主流模子,并可竣事新模子的Day0适配,即模子发布今日即可完成运行支握。对于用户而言,这使得P7不再仅仅演示型征战,而是一台可耐久运行Agent任务的土产货AI结尾。
从芯片到系统,再到Agent扩充智商,梦想与后摩智能正在共同考据一种新的AI主机款式。
跟着端侧大模子握续演进,这种兼顾性能、功耗与耐久运行智商的Agent Computer,正在成为AI 2.0时期最具施行落地后劲的结尾地方之一。
03
Agent 波澜重构硬件限定,
存算一体迎来推理黄金时期
AI芯片的竞争逻辑,正在发生一场静默的翻转。
往时几年,行业的中枢方针是峰值算力,比拼的是谁能试验更大的模子,GPU也因此成为总计这个词AI时期的中枢基础程序。
但当AI从1.0时期的生成一次回应走向2.0时期的耐久运行、握续扩充当务的Agent款式后,芯片的评价体系运行变化:能效比、握续推贤人商、土产货扩充复杂任务的踏实性,缓缓与峰值算力同等重要。
这一变化并不是传统AI芯片的上风所在,却为新的架构旅途灵通了窗口。
一个彰着的信号来自行业巨头。英伟达重金收购初创公司 Groq 中枢本事财富,将其 LPU (Language Processing Unit)说话处理单位用于高性能推理场景。后摩智能与Groq都是存算一体本事阶梯,都是基于SRAM遐想居品,减少数据搬运、进步推理能效,仅仅居品叫法不同。
后摩智能在成立之初就专注于存算一体本事的研发与产业化,2024年推出针对大模子推理优化的后摩漫界M30,支握运行60亿参数模子,并得到了中国挪动等客户。
当今,基于后摩漫界M50,后摩智能也曾搭建起M.2卡、DM.2卡、Pcie卡,最高 640TOPS 算力的齐全居品矩阵,并完成了从本事原型到范围化商用的重要首先。如今后摩漫界M50已全面落地梦想AI主机P7、 AI PC、桌面机器东谈主、Agent Box、智能语音结尾、AI 网关等多元端边场景。
后摩智能也在研发下一代芯片,目的是进一步进步能效比与大模子推贤人商,以适配改日更复杂的Agent时期。
这是一个绚烂性的更变点,GPU 界说了大模子试验时期,而 Agent 的全面爆发,正将算力竞争从云霄试验中心,推向海量的端侧、边际推理节点。在这场算力神态转移中,以存算一体为代表的 AI 原生架构,不再仅仅 GPU 的补充或替代,更在缓缓确立端侧 Agent 时期的全新硬件尺度。
跟着Agent运行向更多土产货征战渗入,行业对于低功耗、高能效端边推理芯片的需求也会握续增多。
改日,围绕端侧大模子推理,还会出现更多新的芯片款式与架构阶梯。
在这场Agent驱动的AI硬件范式切换中,AI原生的芯片成为竞争的重要,像后摩智能这么率先完成存算一体交易化落地的公司,正在插足更大的增长通谈。
皇冠体育(CrownSports)官网更多对于推理时期算力需求的深度疏导接待添加作家微信BENSONEIT。

