2025-06-20

人人都是 Agent Builder

平时使用 AI 产品时，常常会遇到这样的问题：比如我想总结一篇文章，许多工具都会提供“总结网页”这个功能按钮。点击之后，系统确实给出一段话，但总觉得总结的长度、风格都不合适，却没法调整。如果实在想调，只能自己手动写一个很长的提示词，把要求解释清楚。这已经够麻烦了，更麻烦的是：就算调好了，这个产品也记不住。下一次还得重新来一遍。我们总不能把提示词记在小本本上，每次复制粘贴吧？

这个问题暴露了当下很多 AI 应用的设计盲区：提示词是被封装死的，控制权在开发者手中，而不在用户手中。

AI 功能，还是 AI 工具

在 AI Horseless Carriages 这篇文章中，Pete Koomen 提出了一个观点：真正强大的 AI 软件，应该让用户定义提示词，而不是开发者写死。尤其是那些“代表用户”执行任务的功能，比如写邮件、总结文章，如果提示词不能定制，产品就只能提供一种“通用平均值”的体验，难以真正贴合个体。

Most AI apps should be agent builders, not agents.

— Pete Koomen

他的建议是：与其封装几个按钮，不如把时间花在帮助用户写好提示词、构建清晰上下文、完善可调用工具链上。

这一点，正在越来越多优秀产品的设计中得到验证。

让用户定义自己的“小 AI 工具”

在 WWDC 2025 上，苹果展示了一项很有启发性的功能：用户可以自己定义 AI 要完成的任务，例如“总结网页内容”、“检查笔记”、“润色邮件”等，把它保存为一个可复用的小工具，并通过 Spotlight、Shortcuts 等系统级方式快速调用。

这是一个重要的思路：不再是开发者提供封闭的 AI 功能，而是让用户用平台提供的能力构建属于自己的 AI 使用方式。

实时互动、强调主控权的 AI 体验

NotebookLM 团队离职创业，新产品 Huxe 提供了一种有趣的体验：你可以以语音的方式“听”电子邮件、新闻、播客摘要等内容，并在过程中随时打断，与 AI 实时对话讨论。

这种方式并不强调“一次性生成答案”，而是将生成式 AI 看作一个动态工具，为用户个性化服务、即时反馈，真正体现出“人是主导者，AI 是工具”和“内容极度个性化”的理念。

构建智能体 ≠ 写死智能体

这几个案例来自不同方向，却指向一个共同趋势：AI 的控制权，正在从开发者手中转向用户。

Koomen 强调提示词的可定义性；
苹果在系统层面释放 AI 的组合能力；
Huxe 在交互上强化用户主导的节奏。

它们共同提示我们：与其追求“更智能的 AI 功能”，不如思考怎么让用户拥有“构建智能体”的能力。

每个用户，都是 Agent Builder

所以，如果我们把“智能体”理解为能自动执行任务、代表用户行动的系统，那么除了构建智能体本身之外，还有一个不同的产品思路：构建支持用户自行构建智能体的环境。

从提示词管理、上下文记忆、技能调度，到个性化交互方式……这些都是智能体“之下”的基础设施。而这些基础设施，正逐渐变得易用、开放、可分享。

我们可以想象一个不远的未来：

写一个提示词，就能保存为个人工具；
工具可以在个人熟悉和喜欢的环境中使用；
使用方式可能是文字、语音、自动化；
内容是动态生成的，完全符合个人需求的，可交互的。

人人都是 Agent Builder，这或许才是生成式 AI 应用真正的下一个时代。

感谢@苏奇分享 Huxe 的案例，并和我讨论了很多这方面的想法。

2024-11-28

具体与抽象

和别人讨论产品时，很难受的一种情况是你聊具体的时候他聊抽象，你聊抽象的时候他聊具体。

比如，你说你觉得这功能怎么样，他说你是想做个 Google 吗？你说我们的产品核心应该是 XYZ，他说但我觉得这个图标不好看。

这一般发生在不太默契的两人之间，可能是初次合作，对彼此的思考方式了解得不深，就容易陷入这样一种怪圈。

这种讨论效率很低，经常得不到结论，因而很有挫败感。

有的时候磨合一下能慢慢缓解。两人逐渐在同样的抽象层面上讨论问题。也有时候，永远聊不到具体，始终围绕着抽象和类比兜圈子。

这很危险。

有抽象的原则作为指导是好的，甚至是必须的。但也要务实。

聊高瞻远瞩的东西自有它的乐趣，但是脚踏实地的日拱一卒才是实现目标的唯一方式。

2024-11-02

划词工具栏

这些划词工具栏的问题是，
它们最终侵入到任何有文字的地方。

然后它影响了你正常使用软件。

然后你一气之下关掉了它。

然后你就把它遗忘了。

Toolbar1

Toolbar2

Toolbar3

2024-09-27

简化与进步

在一篇博客文章中读到一段话：

People are biased towards solving problems through addition rather than subtraction.

Because adding something makes you feel like you are advancing, while taking something away makes you feel like you are retreating.

今年 RailsWorld 的主题演讲里，DHH 作了一首俳句：

Progress is our path,
Complexity builds the bridge,
Simplicity waits.

在追求进步的道路上，复杂性是不可避免的，但我们不能停留在把问题解决了的程度，而是不断追求让解决方案从根本上更简单。

言出必行，Rails 8 今年全力推广 NoBuild 和 NoPaaS，把多余的东西从开发者的技术栈里移除，回归开发和部署 web 应用的本质。

Rails 的迭代一直很大胆地舍弃旧东西，添加新东西。时代不同，技术发展阶段不同，它始终能以最好的方式实现它的使命 — 做最好的 One Person Framework.

顺便提一句，Elon Musk 对猛禽发动机的迭代可太酷了。

Raptor rocket engine

不能光说删减，而是删减后仍能提供相同甚至更好的效果。

不能光说 less is more，而是 do more with less.

2024-09-27

我们现在对于大模型的输出有一种很强的控制欲，希望它是确定的，希望它是可控的。

这很像 Web Design 刚兴起的时候平面设计师的感受，总想要做到像素级完美。

但 Web 是一种新媒介，最终设计师们学会了如何与这种不确定性共存。

他们发明了响应式设计，发明了渐进增强，发明了各种工具来确保在各种情况下都能提供良好的用户体验。

大模型也是一种新的媒介，最终我们可能需要学会与这种不确定性共存。

2024-09-16

Roguelike

今天刷 App Store 时鬼使神差地买了一款游戏，倒不是多么想玩，而是被宣传语吸引了 —– 好评如潮的 Roguelike 游戏。

其实我看到过这个游戏很多次了，但今天不知道为什么，特别想了解到底什么是 Roguelike。

付款，下载，等待安装。就去忙别的了。

吃过晚饭，拿起手机，才想起来买了个游戏。点开玩了半小时，死了好几次，看到装备、合成、升级这些词就觉得头大，劝退了。

所以还是搜索一下 Roguelike 是什么意思吧。

Roguelike 游戏是一种具有特定特征的游戏类型。

一、主要特点

随机生成性：游戏中的地图、敌人、道具等都是随机生成的。每次游戏的体验都不同，增加了游戏的重玩价值。例如，在《以撒的结合》中，每一局游戏的地牢布局、怪物分布和道具出现位置都完全不同。

永久死亡：一旦玩家角色死亡，游戏通常就会结束，且不能以相同的角色继续游戏。这使得玩家在游戏过程中需要谨慎决策，增加了游戏的紧张感和挑战性。

回合制或即时战斗：可以是回合制的战斗模式，也可以是即时战斗。像《失落城堡》就是即时战斗的 Roguelike 游戏，玩家需要在紧张的战斗节奏中做出反应。

资源管理：玩家需要合理管理有限的资源，如生命值、魔法值、道具等。在《死亡细胞》中，玩家需要权衡使用道具和保存资源的时机，以应对不同的挑战。

二、游戏魅力

高挑战性：由于随机生成和永久死亡的特性，Roguelike 游戏具有很高的挑战性，需要玩家不断尝试和学习。

探索性强：随机生成的地图和内容鼓励玩家去探索未知，发现新的策略和玩法。

策略性：玩家需要在游戏中制定不同的策略，根据随机出现的情况做出决策。

这种高难度的游戏果然还是不适合我。

2024-09-14

做了一个梦，梦里 LLM 变成了活跃的意识之海，翻滚咆哮，从里面喷出的水柱拥有胳膊和腿的形状。

2024-09-01

Jim Rohn:

Set a goal that’ll make you stretch that far. For what it’ll make of you to achieve it.

The greatest value in life is not what you get, the greatest value in life is what you become.

2024-08-29

聊天式与结构化 UI 的权衡

ChatGPT 一直让交互方式保持很单纯的文字输入，我们知道这样对用户要求高，新用户有门槛，会写提示词的用户可以用到很强大的功能，而普通用户只能做个信息查询。

我一直在想它们为什么没有针对场景优化，做一个用户熟悉的 UI，让用户把高级功能用起来？

之前我的答案是，他们都是模型公司，靠卖模型赚钱，产品只是一个展示模型能力的窗口，公司主要精力都花在基础模型研发上，没有精力打磨产品，尤其是一个个场景去做。

但是这两家公司都招了很牛的产品经理，要说他们没有想到这一层，我是不太相信。

相对而言，豆包走了另一条路。它围绕聊天界面建造了很多 GUI 界面。

例如豆包的写作模块，系统给出一系列模版，用户做选择填空，系统拼接成完整的提示词。

豆包写作助手

这种像填表单一样的操作方式用户更熟悉，降低了学习门槛，但有没有弊端呢？或者说，用一个单纯简洁的文字输入界面有没有什么好处呢？

我现在越来越觉得聊天式界面牺牲了一部分易学性，换来了无限的灵活性。

这种界面的灵活性上限就是语言的上限，比所有 GUI 加起来提供的灵活性都多。尽管现在的AI 未必能满足我们所有要求，但是至少我们能提出所有要求。这是个通用系统，它能覆盖所有场景。而通用性，是人们对于AI的一个很重要的预期。

人们对于 AI 的另一个预期是个性化。这也能通过聊天式界面实现。同一种诉求两个人的表达会有微妙的差别，AI 会理解这些差别，并给予有差别的回复，这就是个性化的一个体现。

那为什么看似更易学的设计不利于通用性和个性化呢？

我们现在已经很习惯的软件设计，是把用户需求标准化和归一化了，所有用户都是按照产品经理和设计师提前计划好的路径和方式在使用产品。

这就意味着一个 App 只能聚焦一个或几个场景，不可能做到真正通用。用户对于诉求的表达被 UI 组件限制，相应的软件给用户的回应也无法真正个性化。这并不是否定优秀 App 覆盖面程度之广和个性化程度之深，但和一个通用 AI 助手相比，后者显然要在通用性和个性化上取得更大的进展才行。

我们觉得门聊天式界面槛高，因为我们从未这样用过软件，从未认真学习语言中的细微差别。

聊天式界面牺牲了一部分易学性，换来了无限的灵活性。

再回到这句话。

当我们说牺牲了易学性，其实是指「这样的 UI 我们不熟悉，不容易一下子用好」。假如一个刚出生的小孩子，同时面对这两种 UI，她完全有可能觉得聊天式 UI 更符合直觉，更易学。

这是我目前的思考，也许过段时间后会产生新的想法。

2024-08-07

Mark Zuckerberg on two questions

What is AGI? Will Meta get there first?

I don’t know there is one specific definition for this. Because I think intelligence is multi-variant. There is no one number that is your intelligence. So, there’s probably a specific aspect of intelligence or modality which is like reading people’s faces and emotions, and that’s something I care about. So I think we’ll probably try to build that in at some point.

You know, what we are trying to help enable the whole community to do is create all these different AIs for all these things that people want to do. That’s how I think how this ends up being a good thing for the world.

What should kids be studying these days?

The most important thing is learning how to think critically and learning the values when you’re young.

Source: The Circuit

2024-08-01

2024巴黎奥运会，中国体操男团摘银，肖若腾哭了，记者问他：你当时哭，内心的情绪更多是什么，遗憾吗？

肖若腾回答：

不知道，你现在一想我就有点想笑，就是都很怪，人生总是这样的。
我哭可能是觉得我没有发挥好，非常的遗憾啊。
那你们可能会说了，我最后一届奥运会啊，我付出这么多努力啊，我又伤病啊，最后又是和金牌失之交臂，但我觉得没有什么意思，生活总是这样……
我也接受不了，说不上来。

2024-07-25

今天下雨，早上乘公交车，往常热闹的车厢只有我坐在里面，仿佛我和这个世界被公交车体隔绝开了。

我突然想起了几年前乘公交时因为没戴口罩而被赶下车的那个瞬间。

2024-07-24

Computer

Steve Jobs’ talk at the 1983 International Design Conference in Aspen:

电脑是什么

Computers are very adapative.
Computers are really dumb, exceptionally simple and really fast.
It’s a new medium.

电视节目和电脑程序

Through the art of TV programming, we are very good at capturing a set of experiences and being able to recreate them… Computer programming does something different. What computer programming does is capturing the underlying principles of those experiences. Those principles can enable thousands of different experiences that all follow those laws, if you will.

记录所有想法的机器

A book was a phenomenal thing. It got right from the source to the destination, without anything in the middle.

The problem was, you cannot ask Aristotle a question.

And I think if we look into the next 50 to 100 years, if we really can come up with these machines, that can capture an underlying spirit, or underlying set of principles, or underlying way of looking at the world, then when the next Aristotle comes around, maybe if he carries around one of these machines with him the whole life, and types in all the stuff, then maybe some day, after the person is dead and gone, we can ask this machine: “Hey, what would Aristotle would have said? What about this?”

Maybe we won’t get the right answer, but maybe we will. And that’s really exciting to me.

And that’s one of the reasons why I am doing what I am doing.

2024-07-23

每一个输入框都会获得一个 LLM。

每一个编辑器都会被重构。

2024-07-22

LinkedIn 的两个生成式 AI 应用场景

最近在使用 LinkedIn 网站时，我发现了两个使用生成式 AI 的场景，感觉非常恰当且实用。

一、为帖子增加「相关问题」

在信息流每个帖子下方，系统会根据帖子内容建议一些相关的问题，用户有兴趣的话可以点击了解。

点击后系统会打开一个聊天机器人的用户界面为用户呈现答案，支持多轮对话。

这一功能有效结合了 LinkedIn 网站上的内容和生成式 AI 的优势。对平台来说，可以增加产品的使用率；对用户来说，可以及时满足好奇心和探索欲望。例如，在某个职业发展的帖子下，系统可能会建议“如何提升职业竞争力？”等问题，这些问题的答案可以帮助用户更好地理解和应用帖子中的信息。

二、为职位增加「智能评估助手」

在每个职位详情页面上，增加了求职者可能关心的问题，比如了解更详细的公司情况、我是否适合这个岗位、我该如何包装自己来提升应聘成功率等。

点击后，系统会根据用户的个人档案和职位描述来评估契合程度。

还会给出更多问题帮助用户进一步挖掘。

这个功能充分利用了生成式 AI 的优势，帮助用户在探索工作的过程中更深入地了解自己和岗位需求。例如，当用户查看一个数据分析师职位时，系统可能会评估用户的技能匹配度，并提出建议如何提升相关技能。

虽然尚不清楚这两个功能的数据表现，但我相信这些功能应该是非常有效的，因为它们基于 LinkedIn 原有功能，并借助生成式 AI 来进一步提升核心价值。

这种创新不仅提升了用户体验，也增强了用户对平台的信任度。

2024-07-19

海朋森《我们的歌谣》：

各自怀着各自的心事
你们各自握着各自的苹果

2024-07-04

Figma Config 2024 & AI

Figma 的产品力还是很棒的，今年的大会上发布了很多新功能，而且能看出来是那种从用户出发的功能。

我印象深刻的有两个。

一是 suggest auto layout。用户把一个组件设计好之后，可以让系统把它转化为自动布局。设计的时候经常遇到这个场景，把元素摆来摆去，尝试不同的布局，最后定下来一种，需要转换为自动布局方便复用和修改。一旦元素多了，转换为自动布局的过程挺费脑力和体力的，如果系统能自动做这件事，哪怕只是建议，也能提高效率。

二是新产品 Figma Slides。很多人都已经在用 Figma 制作幻灯片了，Figma 顺势而为推出一个专做幻灯片的模式，让用户操作更加顺畅 —— 我相信这是观察用户社区得来的想法。

AI 的功能当然也很棒，内容填充、图片生成、自动命名图层、改写文案、更强大的搜索等等，能想到的几乎都做了。还有帮设计师从无到有生成设计的 Make Design —— 提示词生成设计稿。

Twitter 上的设计师对于 Figma AI 有一种复杂的情绪。

有人担心自己的设计稿被拿去训练，有人担心自己的工作被取代，有人想要保持最后的尊严，给设计稿贴上「纯手工命名图层」的骄傲勋章，还有人呼唤 Sketch 来拯救广大设计师……

其实 AI 取代一部分 UI 设计工作是必然的，这是由软件设计的本质决定的。

UI 设计中很大一部分是遵循规则和模式的，而不是个人艺术表达。
UI 设计是基于背后的业务数据模型的。
软件 UI 设计最终要转换为代码。

也许 AI 无法理解可用性原则、格式塔法则等，但是它可以通过训练“学习”成千上万的设计，找到其中的模式，而生成代码、排列像素等工作本身就是它的强项。

所以，当“程序员朋友们点击一个按钮生成一个不错的 UI” 这样的场景出现的时候，我们也无需感到惊诧。

AI 的局限恰恰也在于它的优势 —— 学习大量设计从中找到模式 —— 这样的方式只能生成出来平均的、还不错的 UI，无法产出原创、独特的设计。

这部分是人类设计师的强项。

所以，人类设计师能做的，就是提高自己的品味，能分辨 AI 生成物的好坏，以及生产出原创、独特的设计。

绘画、音乐什么的，也是如此。

2024-06-16

该怎么教育孩子

这几天姜萍刷屏了。

姜萍在演算数学题

在江苏一所中专学校学习服装设计的她花两年自学高等数学，在一个全球性的数学竞赛中名列第12名。

排在她前面的人均来自北大、清华、剑桥大学、麻省理工等名校。

这是一个很励志的故事，再次印证了”兴趣是最好的老师“那句话。当然确实也有一位水平高的老师一直指导和鼓励她在数学道路上前行。

姜萍：“数学更像我一个朋友，问题解决出来的时候，特别快乐；做不出来的时候，会很痛苦。”

这几天欧洲杯开赛，西班牙队球员亚马尔刷新了最年轻出场球员纪录——16岁338天。他在首场对阵克罗地亚的比赛中送出一记助攻。

亚马尔

很巧，也是17岁，如果上高中的话应该是个高三学生。在咱们国家，哪怕你踢得比罗纳尔多还好，怕也要被父母逼着刷题准备高考吧。

今年海淀小升初取消了点招，统一网报志愿然后摇号，基本靠运气，无数家长的“小强梦”破碎。

摇号中签率

填报这个表格前几行的学校却没有中签的那群孩子，无疑是非常优秀的，每个手上都有不止一个奥数奖牌。可是上初中以后呢，还有多少人会坚持学奥数？我相信很少。

孩子小学期间超前学习数学，为了奥数成绩搭上所有课外时间，有多少人是像姜萍那样享受这个过程的？

AI越来越强大，未来会变成什么样子，什么岗位消失，怎样的新岗位出现，无人知晓。

作为一个小学生的爸爸，看到女儿解不出应用题、计算出错时，也会感到焦急。同时又有一种矛盾的心理，因为她只要拿起手边的计算器、电脑、手机，任何一个，都能很快得到结果，那为什么还要下功夫去训练速算、巧算呢？是为了训练数学思维？

作为家长，我们现在应该教给孩子什么呢？

我觉得下面几个能力很重要。

一、沟通能力。汉语、英语、逻辑是与数字生命交流的基础。这是我们的语言和思考方式，数字生命很好地掌握了我们的语言，我们也要掌握好。

二、编程。这是数字生命的语言，我们应该掌握它们的语言，进而更好地理解它们的思考方式。

三、艺术鉴赏和创作。除了劳动，人类还需要艺术来滋养心灵。

四、解决问题的能力。人类是在解决一个又一个的问题中前行，不管宏观还是微观，具备良好的分析、解决问题的能力很关键。

五、幸福的能力。所有的能力都是为了更好地工作和生活，但最终是为了获得幸福。幸福是一种心理状态，如何调整心灵和外界环境的交互，让自己能够感受到幸福，绝对是一种了不起的能力。

我也看不清目的地的模样，只能教给她在旅途中校准自己的一些技巧。

这些技巧当然也会过时，只希望她能慢慢掌握自己习得这些技巧的元能力。

2024-06-13

WWDC24 有点惊喜

近几年的苹果发布会一直被吐槽“挤牙膏”式更新，但我觉得今年的 WWDC 还是有点东西的。

第一个感受是 Craig 拼了老命，讲完这个讲那个，还在楼梯间跳上跳下(替身演员?），真不容易。

第二个感受是苹果还是最会讲故事的，它能把这些新功能、新技术的使用带入现实场景，让用户共情。

举两个例子。

下面这段讲的是用苹果手表的 Double Tap 功能开启定时，当时看得我一激灵，因为我自己就曾有过抱着娃操作闹钟，感到特别不方便的体验。相信有过哄睡经验的父母都对这一场景深有体会。

double tap

下面这段讲的是 AirPods 的自动消除噪音功能。我有过很多次打电话时听到对面传来的噪音或者担心自己身边的噪音传到对方耳朵里的经历。视频用短短几秒钟就把这一场景展现的淋漓尽致，清楚的说明了这个功能解决了什么问题，以及解决得有多好。

airpods

这种以用户为中心的叙事方式比 Google 发布会上不停地讲功能的方式高级很多。

发布会先讲了 iOS, iPadOS, macOS 的更新，我觉得有三个点还挺戳的。

Math Notes & Interactive Graphing

用户可以使用 Apple Pencil 在备忘录里手写数学算式或公式，系统自动识别并计算，还能把计算结果以相同的手写体展示出来。

$math notes 1$

用户还能设置参数变量，让系统生成函数图像，并且实时调整参数，观察函数图像的变化，寻找问题的最优解。自由调整，实时反馈 —— 这是验证想法、创造新事物的最好方式。

$math notes 2$

Smart Script

很多用户使用 iPad 和 Pencil 以手写的形式做笔记，新功能可以自动优化用户的字体，让它看起来更美观、更易读，还可以把复制粘贴插入的文字自动转换成用户的手写体，最终帮用户打造出一篇精美的手写笔记。

smart script

这是苹果的风格 —— 把机器学习算法这种高科技用到特别细节之处，把体验提升一点，再提升一点。累积起来，体验就比其他平台高出很多。

iPhone Mirroring

这个新功能让用户可以直接在 Mac 上操作 iPhone，把跨设备做到了极致。

iphone mirroring

在 Mac 上不仅可以正常使用手机的所有功能，还能接收手机通知、使用电脑键盘输入，甚至把电脑上的文件直接拖拽进某个手机 App 中。

iphone mirroring

操作过程中，手机能一直保持锁定或待机状态。

这很好的解决了我们在用电脑时，突然来了一个事情，需要手忙脚乱的去找手机处理的情况。

又是一个细节，但苹果就是愿意在这种细节上投入很多。

重头戏 AI 放到了最后，苹果还玩了一个可爱的梗，把它叫做 Apple Intelligence.

我觉得有个误解就是 Apple 和 OpenAI 合作，iOS 里的生成式 AI 相关的功能都是基于 GPT 做的。实际上，发布会主要在讲苹果自家的 AI 能力，与 ChatGPT 的整合只是其中一个场景，占了很小的篇幅。

首先是 AI 产品的原则，整体和其他大厂类似，但只有苹果提了 Intuitive，这点底色不能丢。

AI principles

文字场景 —— 系统级的文本起草、优化、改写功能，可以被内置和第三方应用无缝唤起。

writing tools

图片场景里最有趣的是 Genmoji 和 Image Playground。

Genmoji 属于好玩的功能，根据用户输入的文字生成新的 emoji.

genmoji

Image Playground 有文生图能力，既可以独立使用，也可以嵌入到其他 app 中使用。

image playground

image playground in notes

Agent 场景 —— 根据用户的语言指示调用多个 app 完成任务，有点像之前的 workflows 功能，发布会上也没展示太多细节。

actions

Siri 的更新 —— 主要有这么几点：

更好地记住对话的上下文
除了语音，还支持打字交流
可以询问关于手机功能、设置相关的内容
可以直接针对当前手机屏幕上的内容进行提问
对手机上的所有信息都有感知（比如邮件、短信、文件等等）

siri

ChatGPT 整合 —— Siri 认为有必要时会尝试调用 ChatGPT，在用户同意的情况下，Siri 会把当前的请求交由 ChatGPT 来回复。

siri chatgpt

Developer SDK —— 虽然只在结尾处简单提了一下，但相关的 API 升级有重要意义。一方面，开发者可以更方便地在自己的 app 里集成 Apple Intelligence，比如添加 Image Playground 功能；另一方面，开发者也可以把自己独有的能力接入到 Siri 中，使之得到充分利用。

sdk

这场一小时四十分钟的发布会内容塞得满满的，或许是抱着对 AI 产品的期待，我看到了最后。事实证明还是值得一看的。

尽管说起来这些生成式 AI 的产品、场景没什么新鲜的，但苹果做的东西真正展示了 intuitive 和 integrated，而 integrated 这点的确是 OS 厂商独有的优势。

2024-06-04

思考 AI 变革的框架：平台迁移、软件进化与 AGI

OpenAI 发布了 GPT-4o 和很酷的语音交互，谷歌发布了包括 AI 搜索在内的一系列新产品，微软把 AI 和 Windows 进行了更深度的整合，同时对整个技术栈进行改造，即将召开的苹果发布会想必也会重点讲 AI。

生成式 AI 无疑是革命性的，但这种变革是什么层面的，我们应该如何理解这种变革？

我觉得有三种思考框架：

平台的迁移
软件形态革命
通往 AGI 之路

平台的迁移

最保守的理解是把它看作一次平台迁移，就像之前的 PC、互联网、移动互联网那样。我们期待的 AI-native 应用大爆发就是这个思路，“把所有 app 重做一遍”、“相比 GPT-5，我更期待 super app” 等论点，也是在此框架下，用移动互联网的生态进行类比。

就目前的落地场景来看，一方面它在那些有明确对错标准且容易检验的领域日渐成熟，比如生成代码、SQL命令等，另一方面它在那些没有明确对错之分的领域也得到广泛应用，比如创意写作、头脑风暴、情感陪伴、绘图等。

大厂会持续用 AI 为自家产品助力，可能是增加新功能，例如 Photoshop 的 generative fill，或者是改进现有功能，比如各种客服机器人的解决方案。创业公司则把大厂做得不好的某些垂直场景剥离出来进行优化，比如 Answer.AI 等。也会涌现出之前没有的场景，比如文字生成图片、音乐等。

即便是理解成平台迁移，目前也仍处于早期阶段。AI 产品的渗透率还不高，最流行的 ChatGPT 手机端的日活大概在一千万，这个数字与全球每天使用手机的四亿人比起来还非常小，而主流的社交或短视频产品的渗透率可能都超过 50%，想象中的 App Store 那样的繁荣生态也尚未出现。

人们还在努力改造这项新技术，发明新工具，使得它能够适应我们现在的工作和生活方式。未来随着新工具的广泛使用，我们的生活和工作方式就会去适应工具，被工具塑造。

软件形态革命

比尔盖茨说他一生中只见过两次具有革命性的技术演示，一次是图形用户界面（GUI），一次是 ChatGPT. 这不禁让人觉得 AI 带来的变革也许不仅仅是平台迁移。

In my lifetime, I’ve seen two demonstrations of technology that struck me as revolutionary… the GUI and ChatGPT.
— Bill Gates

从人机交互角度看，早期人们使用命令行的方式与计算机交互，后来演变成使用图形用户界面与电脑和智能手机交互，这大大扩展了软件的使用范围。通过图形界面，人们可以更直观得了解手机可以做的事，并且通过点击界面上的各种元素完成任务。当然，任何一个任务的完成都需要有人编写相应的软件作为支撑，比如银行、外卖、打车、订酒店等。

大模型的通用能力增强，是否意味着 AI 能自动化大多数任务，我们只要动动嘴，电脑就能搞定一切？

谁更有可能实现这一图景？操作系统厂商。

微软的 Copilot Runtime 已经具备了这个雏形。尽管现在还不是，但不难想象它具备这种潜力——开发者基于 OS 提供的 AI SDK 开发功能（以 agent 的形式），OS 负责提供跟用户交互的通用界面，并且这种界面是对话式的。

这种思考框架下第一个问题就是，agent 真的能做到如此智能以至于能够自动化日常生活中很复杂的任务吗？

更大的问题是可发现性。如果只是给用户一个通用的界面，用户知道可以用它来做什么吗？

当然，这种担心也许是习惯了现有产品形态的人的惯性思维罢了。如果它什么都能做，那可发现性就不再是问题了。

通往 AGI 之路

所有想法里最引人遐想的就是生成式 AI 最终能带给世界 AGI。

可 AGI 是什么，我们如何定义 AGI？

We believe our research will eventually lead to artificial general intelligence, a system that can solve human-level problems.
— OpenAI

什么是“可以解决人类级别的问题”的系统呢？在各种为人类设计的考试中取得优异的成绩算不算？

GPT-4 scores

Sam Altman 在最近的一次访谈里提到他想法的转变——他认为 AGI 的实现不会是一个转折点，而是一个持续的过程。

也就是说，其实我们没办法判断人工智能是否到达了 AGI。

AGI 并不是一个技术，而是一个概念，它用来指代一切我们尚未实现的东西。

相信现在多数人都认为 LLM 还没有人类意义上的“理解”能力。随着参数规模扩大，是否有一天它能够具备这种能力呢？有的人认为可能，有的人认为肯定不可能，还有的人认为根本不重要，只要它表现得足够有理解能力就可以了。

这种思考框架最大的问题不是打造 AGI 过于困难，而是没有明确的目标，我们不确定想要打造的东西究竟是什么。所以最终就变成你怎么对待风险的问题——这也是以 Ilya 为代表的“希望慢下来”一派和以 Altman 为代表的“继续加速”一派出现争执的根源。

这篇文章非但没有答案，反而提出了更多问题🤦‍♂️

但我想当下许多关于 AI 的问题的答案只能是“我们还不知道，再观察一下看看”。

保持耐心，继续学习，继续提问。

Previous Page 1 of 5 Next