最近看了不少早期硬件创业项目,逐渐发现 AI 的能力确实是一批新兴硬件公司和硬件品类的「惊蛰」时刻。
今天先说说影像设备这个领域。
如果给过去五十年拉一根时间轴,会发现一条「暗线」:光学与计算在最终价值交付中的配比变化,不仅驱动着技术的迭代,更深刻地重塑了产业的价值链。我越来越确信,这条主轴线,清晰地预示了下一代优秀影像公司的诞生逻辑。
新公司崛起的核心,就是用计算突破光学围栏
我们可以建立一条线,两端分别是「光学」和「计算」。过去 50 年成功的影像公司,都在这条线的某个坐标点上找到了自己的位置,并通过推动坐标点不断向「计算」一端移动,创造了巨大的商业变量。
在胶片时代,价值的锚点无限趋近于「光学」端。玩相机玩的是什么?是徕卡精湛的光学镜片,是蔡司的镀膜。那个时候,一张好照片的价值,几乎百分之百是由光学 + 机械决定的,是精密制造的巅峰叙事。
数码时代的到来,是计算的第一次关键介入。佳能、索尼之所以能颠覆德系百年老店,并非他们在光学技术上实现了全面超越,而是他们率先把「计算」这个变量,加入了价值链。佳能强大的自动对焦系统,本质上就是一套高效的实时边缘计算,它解决了比「画质好」更要命的问题——在动态中「先拍到再说」。索尼凭借其在半导体领域的优势,率先在 CMOS 传感器技术上发力,将更多计算能力融入感光元件,推动了从单反到微单的革命。资本市场用数字清晰刻画了这场价值迁移,这很大程度上源于索尼在计算密集型的图像传感器及多元化电子消费品领域的领导地位。
在这个阶段,计算的核心任务是「优化光学」+「简化操作」,它通过 ISP 芯片,将色彩、降噪、动态范围等复杂工作「预处理」好,交付给用户。计算是重要配角,但价值主体仍是光学硬件。同时数码相机中的软件也带来用户操作的简单化,这种体验的提升扩展了需求,带来了更大市场。
真正的颠覆,始于计算不再满足于「优化」光学,而是开始「定义」场景,甚至「重塑」现实。
GoPro 开创的运动相机品类,其核心价值从不是与单反比拼画质,而是将影像带入冲浪、滑雪、跳伞等极限场景。GoPro 的崛起,初期依赖于小型化和坚固的硬件设计,但其后续的竞争力,越来越依赖于强大的计算能力——尤其是早期其引以为傲的 HyperSmooth 防抖技术,它用算法和算力,在极大程度上取代了笨重的物理稳定器,这正是计算对光学和机械的胜利。但仅有场景还不够,GoPro 的市值从巅峰跌落,也证明了其后续在计算体验创新上的乏力。
大疆(DJI)和影石(Insta360)的后来居上,则是将计算推向了舞台中央。大疆的无人机,本质上是一个飞行在空中的计算平台。其支撑点并非那颗摄像头,而是由飞控、图传、避障和智能跟随等一系列强大计算能力构成的「空中影像智能」。它交付的不是照片,而是一个前所未有的、稳定流畅的「空中视角」。
同样,影石的成功,也并非只是源于光学硬件的极致突破,而是凭借计算能力重构了全景影像的价值链条。它用高效的算法,将 360 度全景影像这种原本专业、复杂的数据,转化为普通用户可以轻松创作和分享的酷炫内容。其「先拍摄,后取景」的理念,以及 AI 驱动的自动剪辑功能,极大地降低了创作门槛,将价值交付从「记录」延伸到了「创造」。影石是一家技术驱动型的影像公司,它将年营收的 10% 以上稳定投入研发,资本市场也对此给出了近百亿美金的市值认可。
至此,影像行业的历史脉络逐步清晰:计算在用户价值中的占比提升驱动着影像大众化、场景化和产业价值的迭代。新一代公司的崛起,靠的是用计算突破光学的围栏,开辟了全新的场景、交付了全新的用户价值。
计算天花板的突破:大模型与影像设备新物种的爆发
今天,计算的天花板正在被彻底突破。一个由「本体算力 + 本地模型 + 云端大模型」构成的全新计算架构正在形成:各类智能设备本身(或部分结合手机)具备了前所未有的处理能力;轻量化的本地模型可以实现实时、低延迟的 AI 功能;而云端的大模型则提供了近乎无限的推理、理解和生成能力。大模型的本质就是「高计算」的产物,它的出现,为影像领域带来了「计算」这一端的巨大资源突破,这是通向前所未有想象空间的绝对红利。
如果说以前的「计算」是算法,是在给定的规则内做优化(比如防抖、拼接),那么今天大模型背后的「高计算」,带来的则是「推理 + 生成」,是在开放世界中进行理解、推理与生成,创造无限的可能性。这种「高计算」正在解锁全新的场景和价值,它给了所有创业公司一个前所未有的势能:你无需自建庞大的 AI 1.0 时代的一大串算法团队搞工程,就能站在巨人的肩膀上,调用过去无法想象的推理与生成能力。
沿着「计算」占比不断提升的这条主线,可以初步看到一条价值跃迁的路径,在传统影像设备「复刻现实」之外,它正在开启三个前所未有的新空间:


第二层,是「增强现实」。当机器能够「看懂」世界,它便能更好地服务于人的主观意愿与情感表达。AI 不再仅仅是做降噪、调色,而是更深度地参与到创作与表达中。计算的角色从「理解」走向「美化与再表达」。例如,PhotaLabs 借助 AIGC 技术,可以让那些因为构图、光线、镜头、时机等种种原因留下遗憾的照片,可以被修复得「和回忆一样美」,这正是计算赋予影像「情感共鸣」与「自我表达」的全新价值。

第三层,将计算的价值比重推到极致,是「生成现实」。这一阶段,光学捕捉到的现实,不再是最终结果或加工对象,可能只是一个激发 AI 创造的「引子」或 Prompt。计算彻底从幕后走向台前,成为创造的主体。最终交付的产物,可能完全是生成的。这层设想不只停留在思维推演中,现实中已经有了「如此极端」的产品案例。丹麦艺术家 Bjørn Karmann 做了一款没有光学部件、纯靠计算的相机 Paragraphica。它通过使用开放的 API 收集地理位置数据,利用地址、天气、时间、附近位置这些信息组成的文本段落,相机上的三个旋钮可以分别调节焦距、胶片颗粒、生成精度,最后使用 AI 基于文本「生成」出照片。

这种多层次的价值释放,预言着一场影像领域「物种大爆炸」的可能性,尤其是在那些看似「小众」的垂直场景中。这背后的洞察是:许多看似「小众」的市场,并非需求本身小,而是过去的价值供给不充足,方式太过老旧或体验不够好。当 AI 驱动的高计算能力,能够主动交付出精准、便捷、远超以往的价值时,那些被压抑的潜在需求就可能被全面激活。
大疆 Pocket 系列的成功就是一个例证:「视频稳拍」的需求一直存在,但过去笨重的物理稳定器将其局限在了专业圈层,Pocket 用极致的便携和智能化的体验,将这一「老旧」的价值供给方式彻底革新,从而将一个最开始相对不大的细分市场作为体验突破口,最终重新定义了便携影像设备的形态,做到了总销量破一千万台的规模。可见只要价值供给足够好,小众也能变大众,甚至专用设备的能力,也可以成为通向新一代通用设备的突破口。

未来,巨大的机遇就蕴藏在这些被高计算能力解锁的全新场景,以及交互和交付方式的细节之中。AI Native 影像公司的机会,将在于向着更专业、更场景化、更个性化的方向发展。它们将通过高计算能力,在一个个具体的场景里交付前所未有的用户价值,甚至有能力将一些过去看起来很垂直的小众场景,放大为更具普遍性的市场。
Plaud Note 录音卡的成功,为我们提供了一个参照。手机有录音功能,但这并未阻碍 AI 录音卡片 Plaud Note 和 AI 录音硬件 NotePin 销售突破一百万台。其成功的核心逻辑在于,它在特定场景下(例如会议、通话录音),针对特定人群(例如商务人士、记者、学生),提供了远胜于手机的交互与交付体验。它通过极致轻薄的硬件形态、一键录音的便捷交互,以及与大模型深度整合的 AI 转写、多模版总结与洞察、思维导图生成等功能,提供了精准而高效的「价值闭环」。

同样的逻辑也适用于影像领域。AI Native 影像公司的启动机会在于向着更场景化、更个性化的方向切入,在特定的场景、提供远超通用设备的「超额满足」,然后寻求用更好的供给扩展需求的总量。
比如过去只有非常少的天文摄影爱好者能做好「深空拍摄」,美丽的星云图片背后往往是一套十公斤以上的、上万元的设备,和对天气条件的极高要求,以及动辄几小时甚至一整晚的监控操作。但自从一家法国公司几年前率先开始推出以堆叠计算为核心的一体化的深空拍摄望远镜,国内类似甚至更好体验的便携设备也开始出现。让「星云图片」的拍摄变得无比简单。

其实在更多的场景下,以简化操作,优化体验,用「高计算」替代「高光学」产出更大的用户价值供给,依旧有机会激发更大的需求。
虽然今天这些「高计算」影像设备还在早期,出货量都还没有爆发。但这条道路刚刚开始,那些即将诞生的 AI Native 影像公司,必须是全新的物种,必须有足够创新的产品思维,也必须坚定地站在「成熟的」光学供应链上,去建设更强的 AI(计算与交互)能力栈。它们从第一天起,就应该是一家有 AI 为核心驱动,以场景的深度理解 + 可以形成数据飞轮的公司。
每一次计算能力的跃迁,都会催生出新的优秀企业。这一次,舞台已经出现,那些真正懂得驾驭 AI 力量的影像新物种们该「惊蛰」了。