2024-07-04

Figma Config 2024 & AI

Figma 的产品力还是很棒的，今年的大会上发布了很多新功能，而且能看出来是那种从用户出发的功能。

我印象深刻的有两个。

一是 suggest auto layout。用户把一个组件设计好之后，可以让系统把它转化为自动布局。设计的时候经常遇到这个场景，把元素摆来摆去，尝试不同的布局，最后定下来一种，需要转换为自动布局方便复用和修改。一旦元素多了，转换为自动布局的过程挺费脑力和体力的，如果系统能自动做这件事，哪怕只是建议，也能提高效率。

二是新产品 Figma Slides。很多人都已经在用 Figma 制作幻灯片了，Figma 顺势而为推出一个专做幻灯片的模式，让用户操作更加顺畅 —— 我相信这是观察用户社区得来的想法。

AI 的功能当然也很棒，内容填充、图片生成、自动命名图层、改写文案、更强大的搜索等等，能想到的几乎都做了。还有帮设计师从无到有生成设计的 Make Design —— 提示词生成设计稿。

Twitter 上的设计师对于 Figma AI 有一种复杂的情绪。

有人担心自己的设计稿被拿去训练，有人担心自己的工作被取代，有人想要保持最后的尊严，给设计稿贴上「纯手工命名图层」的骄傲勋章，还有人呼唤 Sketch 来拯救广大设计师……

其实 AI 取代一部分 UI 设计工作是必然的，这是由软件设计的本质决定的。

UI 设计中很大一部分是遵循规则和模式的，而不是个人艺术表达。
UI 设计是基于背后的业务数据模型的。
软件 UI 设计最终要转换为代码。

也许 AI 无法理解可用性原则、格式塔法则等，但是它可以通过训练“学习”成千上万的设计，找到其中的模式，而生成代码、排列像素等工作本身就是它的强项。

所以，当“程序员朋友们点击一个按钮生成一个不错的 UI” 这样的场景出现的时候，我们也无需感到惊诧。

AI 的局限恰恰也在于它的优势 —— 学习大量设计从中找到模式 —— 这样的方式只能生成出来平均的、还不错的 UI，无法产出原创、独特的设计。

这部分是人类设计师的强项。

所以，人类设计师能做的，就是提高自己的品味，能分辨 AI 生成物的好坏，以及生产出原创、独特的设计。

绘画、音乐什么的，也是如此。

2024-06-16

该怎么教育孩子

这几天姜萍刷屏了。

姜萍在演算数学题

在江苏一所中专学校学习服装设计的她花两年自学高等数学，在一个全球性的数学竞赛中名列第12名。

排在她前面的人均来自北大、清华、剑桥大学、麻省理工等名校。

这是一个很励志的故事，再次印证了”兴趣是最好的老师“那句话。当然确实也有一位水平高的老师一直指导和鼓励她在数学道路上前行。

姜萍：“数学更像我一个朋友，问题解决出来的时候，特别快乐；做不出来的时候，会很痛苦。”

这几天欧洲杯开赛，西班牙队球员亚马尔刷新了最年轻出场球员纪录——16岁338天。他在首场对阵克罗地亚的比赛中送出一记助攻。

亚马尔

很巧，也是17岁，如果上高中的话应该是个高三学生。在咱们国家，哪怕你踢得比罗纳尔多还好，怕也要被父母逼着刷题准备高考吧。

今年海淀小升初取消了点招，统一网报志愿然后摇号，基本靠运气，无数家长的“小强梦”破碎。

摇号中签率

填报这个表格前几行的学校却没有中签的那群孩子，无疑是非常优秀的，每个手上都有不止一个奥数奖牌。可是上初中以后呢，还有多少人会坚持学奥数？我相信很少。

孩子小学期间超前学习数学，为了奥数成绩搭上所有课外时间，有多少人是像姜萍那样享受这个过程的？

AI越来越强大，未来会变成什么样子，什么岗位消失，怎样的新岗位出现，无人知晓。

作为一个小学生的爸爸，看到女儿解不出应用题、计算出错时，也会感到焦急。同时又有一种矛盾的心理，因为她只要拿起手边的计算器、电脑、手机，任何一个，都能很快得到结果，那为什么还要下功夫去训练速算、巧算呢？是为了训练数学思维？

作为家长，我们现在应该教给孩子什么呢？

我觉得下面几个能力很重要。

一、沟通能力。汉语、英语、逻辑是与数字生命交流的基础。这是我们的语言和思考方式，数字生命很好地掌握了我们的语言，我们也要掌握好。

二、编程。这是数字生命的语言，我们应该掌握它们的语言，进而更好地理解它们的思考方式。

三、艺术鉴赏和创作。除了劳动，人类还需要艺术来滋养心灵。

四、解决问题的能力。人类是在解决一个又一个的问题中前行，不管宏观还是微观，具备良好的分析、解决问题的能力很关键。

五、幸福的能力。所有的能力都是为了更好地工作和生活，但最终是为了获得幸福。幸福是一种心理状态，如何调整心灵和外界环境的交互，让自己能够感受到幸福，绝对是一种了不起的能力。

我也看不清目的地的模样，只能教给她在旅途中校准自己的一些技巧。

这些技巧当然也会过时，只希望她能慢慢掌握自己习得这些技巧的元能力。

2024-06-13

WWDC24 有点惊喜

近几年的苹果发布会一直被吐槽“挤牙膏”式更新，但我觉得今年的 WWDC 还是有点东西的。

第一个感受是 Craig 拼了老命，讲完这个讲那个，还在楼梯间跳上跳下(替身演员?），真不容易。

第二个感受是苹果还是最会讲故事的，它能把这些新功能、新技术的使用带入现实场景，让用户共情。

举两个例子。

下面这段讲的是用苹果手表的 Double Tap 功能开启定时，当时看得我一激灵，因为我自己就曾有过抱着娃操作闹钟，感到特别不方便的体验。相信有过哄睡经验的父母都对这一场景深有体会。

double tap

下面这段讲的是 AirPods 的自动消除噪音功能。我有过很多次打电话时听到对面传来的噪音或者担心自己身边的噪音传到对方耳朵里的经历。视频用短短几秒钟就把这一场景展现的淋漓尽致，清楚的说明了这个功能解决了什么问题，以及解决得有多好。

airpods

这种以用户为中心的叙事方式比 Google 发布会上不停地讲功能的方式高级很多。

发布会先讲了 iOS, iPadOS, macOS 的更新，我觉得有三个点还挺戳的。

Math Notes & Interactive Graphing

用户可以使用 Apple Pencil 在备忘录里手写数学算式或公式，系统自动识别并计算，还能把计算结果以相同的手写体展示出来。

$math notes 1$

用户还能设置参数变量，让系统生成函数图像，并且实时调整参数，观察函数图像的变化，寻找问题的最优解。自由调整，实时反馈 —— 这是验证想法、创造新事物的最好方式。

$math notes 2$

Smart Script

很多用户使用 iPad 和 Pencil 以手写的形式做笔记，新功能可以自动优化用户的字体，让它看起来更美观、更易读，还可以把复制粘贴插入的文字自动转换成用户的手写体，最终帮用户打造出一篇精美的手写笔记。

smart script

这是苹果的风格 —— 把机器学习算法这种高科技用到特别细节之处，把体验提升一点，再提升一点。累积起来，体验就比其他平台高出很多。

iPhone Mirroring

这个新功能让用户可以直接在 Mac 上操作 iPhone，把跨设备做到了极致。

iphone mirroring

在 Mac 上不仅可以正常使用手机的所有功能，还能接收手机通知、使用电脑键盘输入，甚至把电脑上的文件直接拖拽进某个手机 App 中。

iphone mirroring

操作过程中，手机能一直保持锁定或待机状态。

这很好的解决了我们在用电脑时，突然来了一个事情，需要手忙脚乱的去找手机处理的情况。

又是一个细节，但苹果就是愿意在这种细节上投入很多。

重头戏 AI 放到了最后，苹果还玩了一个可爱的梗，把它叫做 Apple Intelligence.

我觉得有个误解就是 Apple 和 OpenAI 合作，iOS 里的生成式 AI 相关的功能都是基于 GPT 做的。实际上，发布会主要在讲苹果自家的 AI 能力，与 ChatGPT 的整合只是其中一个场景，占了很小的篇幅。

首先是 AI 产品的原则，整体和其他大厂类似，但只有苹果提了 Intuitive，这点底色不能丢。

AI principles

文字场景 —— 系统级的文本起草、优化、改写功能，可以被内置和第三方应用无缝唤起。

writing tools

图片场景里最有趣的是 Genmoji 和 Image Playground。

Genmoji 属于好玩的功能，根据用户输入的文字生成新的 emoji.

genmoji

Image Playground 有文生图能力，既可以独立使用，也可以嵌入到其他 app 中使用。

image playground

image playground in notes

Agent 场景 —— 根据用户的语言指示调用多个 app 完成任务，有点像之前的 workflows 功能，发布会上也没展示太多细节。

actions

Siri 的更新 —— 主要有这么几点：

更好地记住对话的上下文
除了语音，还支持打字交流
可以询问关于手机功能、设置相关的内容
可以直接针对当前手机屏幕上的内容进行提问
对手机上的所有信息都有感知（比如邮件、短信、文件等等）

siri

ChatGPT 整合 —— Siri 认为有必要时会尝试调用 ChatGPT，在用户同意的情况下，Siri 会把当前的请求交由 ChatGPT 来回复。

siri chatgpt

Developer SDK —— 虽然只在结尾处简单提了一下，但相关的 API 升级有重要意义。一方面，开发者可以更方便地在自己的 app 里集成 Apple Intelligence，比如添加 Image Playground 功能；另一方面，开发者也可以把自己独有的能力接入到 Siri 中，使之得到充分利用。

sdk

这场一小时四十分钟的发布会内容塞得满满的，或许是抱着对 AI 产品的期待，我看到了最后。事实证明还是值得一看的。

尽管说起来这些生成式 AI 的产品、场景没什么新鲜的，但苹果做的东西真正展示了 intuitive 和 integrated，而 integrated 这点的确是 OS 厂商独有的优势。

2024-06-04

思考 AI 变革的框架：平台迁移、软件进化与 AGI

OpenAI 发布了 GPT-4o 和很酷的语音交互，谷歌发布了包括 AI 搜索在内的一系列新产品，微软把 AI 和 Windows 进行了更深度的整合，同时对整个技术栈进行改造，即将召开的苹果发布会想必也会重点讲 AI。

生成式 AI 无疑是革命性的，但这种变革是什么层面的，我们应该如何理解这种变革？

我觉得有三种思考框架：

平台的迁移
软件形态革命
通往 AGI 之路

平台的迁移

最保守的理解是把它看作一次平台迁移，就像之前的 PC、互联网、移动互联网那样。我们期待的 AI-native 应用大爆发就是这个思路，“把所有 app 重做一遍”、“相比 GPT-5，我更期待 super app” 等论点，也是在此框架下，用移动互联网的生态进行类比。

就目前的落地场景来看，一方面它在那些有明确对错标准且容易检验的领域日渐成熟，比如生成代码、SQL命令等，另一方面它在那些没有明确对错之分的领域也得到广泛应用，比如创意写作、头脑风暴、情感陪伴、绘图等。

大厂会持续用 AI 为自家产品助力，可能是增加新功能，例如 Photoshop 的 generative fill，或者是改进现有功能，比如各种客服机器人的解决方案。创业公司则把大厂做得不好的某些垂直场景剥离出来进行优化，比如 Answer.AI 等。也会涌现出之前没有的场景，比如文字生成图片、音乐等。

即便是理解成平台迁移，目前也仍处于早期阶段。AI 产品的渗透率还不高，最流行的 ChatGPT 手机端的日活大概在一千万，这个数字与全球每天使用手机的四亿人比起来还非常小，而主流的社交或短视频产品的渗透率可能都超过 50%，想象中的 App Store 那样的繁荣生态也尚未出现。

人们还在努力改造这项新技术，发明新工具，使得它能够适应我们现在的工作和生活方式。未来随着新工具的广泛使用，我们的生活和工作方式就会去适应工具，被工具塑造。

软件形态革命

比尔盖茨说他一生中只见过两次具有革命性的技术演示，一次是图形用户界面（GUI），一次是 ChatGPT. 这不禁让人觉得 AI 带来的变革也许不仅仅是平台迁移。

In my lifetime, I’ve seen two demonstrations of technology that struck me as revolutionary… the GUI and ChatGPT.
— Bill Gates

从人机交互角度看，早期人们使用命令行的方式与计算机交互，后来演变成使用图形用户界面与电脑和智能手机交互，这大大扩展了软件的使用范围。通过图形界面，人们可以更直观得了解手机可以做的事，并且通过点击界面上的各种元素完成任务。当然，任何一个任务的完成都需要有人编写相应的软件作为支撑，比如银行、外卖、打车、订酒店等。

大模型的通用能力增强，是否意味着 AI 能自动化大多数任务，我们只要动动嘴，电脑就能搞定一切？

谁更有可能实现这一图景？操作系统厂商。

微软的 Copilot Runtime 已经具备了这个雏形。尽管现在还不是，但不难想象它具备这种潜力——开发者基于 OS 提供的 AI SDK 开发功能（以 agent 的形式），OS 负责提供跟用户交互的通用界面，并且这种界面是对话式的。

这种思考框架下第一个问题就是，agent 真的能做到如此智能以至于能够自动化日常生活中很复杂的任务吗？

更大的问题是可发现性。如果只是给用户一个通用的界面，用户知道可以用它来做什么吗？

当然，这种担心也许是习惯了现有产品形态的人的惯性思维罢了。如果它什么都能做，那可发现性就不再是问题了。

通往 AGI 之路

所有想法里最引人遐想的就是生成式 AI 最终能带给世界 AGI。

可 AGI 是什么，我们如何定义 AGI？

We believe our research will eventually lead to artificial general intelligence, a system that can solve human-level problems.
— OpenAI

什么是“可以解决人类级别的问题”的系统呢？在各种为人类设计的考试中取得优异的成绩算不算？

GPT-4 scores

Sam Altman 在最近的一次访谈里提到他想法的转变——他认为 AGI 的实现不会是一个转折点，而是一个持续的过程。

也就是说，其实我们没办法判断人工智能是否到达了 AGI。

AGI 并不是一个技术，而是一个概念，它用来指代一切我们尚未实现的东西。

相信现在多数人都认为 LLM 还没有人类意义上的“理解”能力。随着参数规模扩大，是否有一天它能够具备这种能力呢？有的人认为可能，有的人认为肯定不可能，还有的人认为根本不重要，只要它表现得足够有理解能力就可以了。

这种思考框架最大的问题不是打造 AGI 过于困难，而是没有明确的目标，我们不确定想要打造的东西究竟是什么。所以最终就变成你怎么对待风险的问题——这也是以 Ilya 为代表的“希望慢下来”一派和以 Altman 为代表的“继续加速”一派出现争执的根源。

这篇文章非但没有答案，反而提出了更多问题🤦‍♂️

但我想当下许多关于 AI 的问题的答案只能是“我们还不知道，再观察一下看看”。

保持耐心，继续学习，继续提问。

2024-05-24

UGC 可以用来训练 AI 吗

为了提升大模型能力，互联网上的公开数据能用的都已经用于训练了。新数据哪里来？大厂盯上了私有数据。

媒体类的容易理解，比如报刊、杂志、电视节目等，版权属于媒体公司，只要达成协议，支付费用，拿来训练是没问题的。

社交媒体上用户生成的数据（UGC）呢？这个版权属于谁？平台能不能把这些数据卖给第三方用于大模型训练？按理说，这些条款要写在用户协议和隐私政策里。问题是，现在流行的社交媒体平台都是在大模型出现之前产生的，那个时候的条款里可不会包含这样的用途。这就有很大的模糊地带了。

最近接连发生几个事，都和这个相关，挺值得思考一下的。

Stack Overflow

Stack Overflow 是程序员的问答天堂，很多程序员入门、进阶都是从这个网站开始的，甚至有程序员戏称自己的工作就是每天去 Stack Overflow 上拷贝代码。今年5月，OpenAI 和 Stack Overflow 达成了一项协议，将使用该网站的内容来改进其 AI 模型，同时也会在 ChatGPT 中引用这些内容。

许多用户认为这一合作是对他们劳动成果的盗窃，而且他们无法选择退出。一些用户试图删除或修改他们在 Stack Overflow 上的回答，以表达对这一合作的不满 🤦‍♂️ Stack Overflow 则采取了包括封号在内的措施来阻止这些用户。

Stack Overflow News

Slack

相比 Stack Overflow，Slack 要使用用户的消息训练 AI 更让用户感到害怕。要知道 Slack 里可都是公司内部聊天信息，很多都是保密的。用户尤其不满的是，想选择退出还要给 Slack 发邮件申请，并且隐私政策中含糊其辞。在 Hacker News 上的一篇热门帖子之后，这个问题引起了关注。Slack 澄清说，虽然它将客户数据用于某些功能，但它不会使用这些数据来训练其单独收费的“Slack AI”产品 🤷‍♂️

Hacker News

Reddit 的故事则是另一个角度。今年3月，Reddit 与 Google 达成协议，允许 Google 使用自己网站数据训练 AI，年费 6000万美金。5月，又与 OpenAI 达成类似协议。此新闻一出，Reddit 股价上涨 14%。

不得不承认，当一个用户在平台上辛苦创作的内容被平台转手卖给第三方时，用户情感上会有一种被出卖的感觉。但这里的根本问题不是隐私（当然像 Slack 那种企业内部信息确实是隐私），而是利益分配。也就是说，用户创造的内容以一种直观的方式给平台带来了经济利益，但是用户没有分享到这部分利益。

理论上，平台可以设置某种与用户的分成机制，比如根据内容获赞的数量给予奖励，但实际操作中可能比较困难，内容难溯源，价值难评估。还可以考虑设置专项基金奖励创作者。或者利用区块链来标识用户内容，让创作者赚取 token 等等。

我们一直说数据有价值，在广告模式下，用户很难直观感受到有多大价值。现在这样明码标价直接出售，给用户造成了很大冲击。因此，社交媒体如果考虑把平台上的 UGC 出售给 AI 公司作为训练数据的话，最好想一想怎么与用户（尤其是创作者）分配利益，否则可能面临像 Stack Overflow 用户那样的极度不满。

2024-05-10

量子物理如何让我更自洽

Helgoland cover

最近读了一本科普读物《量子物理如何改变世界》，这本书在豆瓣2023年度科学·新知图书榜单排名第三，作者是意大利理论物理学家卡洛·罗韦利。

这本书篇幅短小，只有200多页，前一半主要讲量子理论的发展和核心思想，后一半讲我们应该以何种方式去思考和理解量子理论。因为量子理论和我们的日常生活经验相差悬殊，作者引用了多种哲学观点来阐释其正确打开方式，这让本书的后半部分具有强烈的哲学意味。

事实上，作者的核心观点之一就是量子理论可以统一物质世界与精神世界 —— 它们本质上都是不同实体间的相互关系。现实只不过是一张由事件编织出来的互动关系网。

我发现这样的思维方式可以印证很多宏观层面的观点。

举几个例子。

一、没有绝对的、普适的观点。年纪越大，见过的人越多，就越能理解这句话。任何观点上的差异都是视角不同罢了。理解他人和世界建立联系的方式，能帮我们拼凑出更为全面的现实图景。

二、过去不决定未来，世界是概率性的。做产品的时候，我们常常有那种“顿悟”瞬间，以为自己抓住了某种因果规律，锁定了系统中的确定性，但把这个确定性推而广之时又发现行不通。世界上没有确定的存在。

三、认知只是一种映照，“我”是什么，直接影响了我的认知是什么。不同人读同一段文字的感受不同，看同一轮明月的情绪各异。“我”的概念，也是由关系所定义的。我们对现实的看法也是现实的一部分。

四、学习的最好方式是边干边学，通过与具体问题的互动去理解它，解决它。这个过程中所出现的事实会帮我们调节脑内的概念结构，让知识、能力真正内化。

“量子力学理论是迄今为止唯一一个未曾犯过错误，且在其应用范围方面尚未发现局限的认知世界的基本理论。”

也许物质微粒、量子风暴离我们的生活过于遥远，但是了解世界的构成方式，以及怎么去思考和看待它，却能对我们的生活和学习产生重要影响。

当然，这样的观点本身，也仅仅是“我”与这本书之间的相互关系。

2024-05-10

Apple Ads

为了展现新 iPad Pro 的强大，Apple 发布了一个令人极度不适的广告片 Crush!。

碾碎所有代表人类创意的美好事物换来一台 iPad 这样一个事实，明白无误地提醒了我们，在追求数字化、高科技的路上，我们失去了多少美好。

有网友说 “iPad crushes the soul of humanity”，振聋发聩。

几个月前，一支宣传 Apple “碳中和”成绩的广告片 Mother Nature 也让人觉得非常诡异。

所以你不禁会想，Apple 这是怎么了，这种变化是从什么时候开始的，当这个三万亿美金巨头跌倒的那天，这些诡异的广告是否会被当作一种前兆。

2024-04-27

在 Macbook 上运行 Phi-3

Phi-3-mini 是微软发布的一个小语言模型，有38亿参数，主打一个体积小，能在端侧流畅运行，并且效果不错。

今天试着在自己的 Macbook 上跑了一下。

主要用到了一个开源的工具 Ollama，这个工具把在本地运行模型的流程做到了“傻瓜式”。除了 Phi-3 外，它还支持许多主流开源模型，包括 Llama 3, Mistral, Gemma 等。

Ollama website

从官网下载 Ollama 安装包后一路点下一步进行安装。

之后打开终端，运行一个命令 ollama run phi3 系统就会自动下载 Phi-3 并安装。这个模型体积只有2.3GB，比我预想的小很多。

安装完成后，终端里会出现一个交互界面，在这里就可以直接开聊了。

Install complete

用起来第一感觉是速度非常快。对简单问题的回答也比较令人满意。

Q&A in terminal

终端里给出答案无法格式化 markdown 的内容，这可以通过给它套一层 Web UI 来解决。

开源社区也有解决方案，比如 Open WebUI 就可以与 Ollama 无缝集成。根据 Github 上的说明安装好之后（需要预先安装 Docker，之后也是执行一条命令），就可以通过浏览器访问运行在本地的 Web 聊天界面了。

Open WebUI screen

整体操作下来，感觉现在围绕大模型应用的工具链真的很成熟了，对新手很友好。而且在本地跑模型和直接调用 API 时的感受很不一样，看到它吐出答案的那一刻，很难想象 LLM 这样强大的技术竟然可以在自己的笔记本电脑上运行起来。

2024-03-27

AI Pin & Rabbit R1

Rabbit R1

Rabbit R1. 售价 $199。据报道已经收到10万个预订单。

AI Pin

AI Pin. 售价 $699/$799。暂无销售数据。

两个产品都计划于今年三四月份发布。

感觉AI技术还没有达到产品 demo 里演示的成熟程度，因此很好奇这两个设备到底会惊艳用户，还是只是骗人的。

——

四月，AI Pin 发货，遭到了第一批用户的猛烈吐槽，在操作、性能和体验等方面均未达到人们的预期。

五月，有消息传出 Humane 在寻求出售。

以目前 AI 技术的能力来看，这些设备能覆盖的场景和提供的体验都远远无法取代智能手机。因此，人们没有理由在手机之外还要携带一个新的智能设备。

也许，耳机和眼镜还有可能。

2024-02-28

AI 取代了什么

包括 Sam Altman 在内的许多人对 AI 的评价是：现在 AI 只能取代任务（task），还不能取代工作（job）。

我认同这个观点，还可以从这个观点得到几个推论：

工作里除了任务还有其他活动
如果一个人只会做任务，那他大概率会被 AI 替代
学会区分任务和工作是很重要的
如果把完成任务看作时间轴上的一个个块，是不是填满块间空隙的东西才使得工作成为工作？那些填满空隙的东西是「思考」吗？

2023-12-06

Books 2023

罗列一下2023年读的书，觉得很好的做了标记。

2023-11-10

Form & LLM

前段时间看到 luke 说自己做了一个演讲，题目是 How AI ate my website，想听听看，但一直没找到视频。

过了几天，看到了 OpenAI DevDay 的视频，看 Sam 三下两下把自己写过的文章喂给 ChatGPT，创建了一个创业导师机器人。突然想到 luke 应该也是做了类似的事吧。只不过他是在 DevDay 之前做的，那时候还没有这些新工具。

进而想到 luke 当年因为写了表单设计相关的书出名，以后要是都变成聊天式 UI，就没有表单什么事了吧。

充满了模糊性的 LLM 竟然能很好的理解人类用模糊的语言描述的需求，让我们终于有希望摆脱各种繁琐的在线表单，这一点挺神奇。

2023-11-07

AI 的未来：个性化通用智能

我在上一篇文章《AI 带来的机会》里的观点是，更多的机会在 AI 应用上，我们应该着眼于应用领域的颠覆式创新。

行业内普遍的预测也类似：基础模型厂商会收敛到三家左右，更多机会（尤其是新公司的机会）在应用层，未来会有越来越多的 AI 原生应用出现。

什么才是 AI 原生应用呢？为什么没看到市场上出现很多所谓的 AI 原生应用呢？为什么行业看上去日新月异，但新公司在 AI 应用领域找到机会这么难呢？

AI 在应用中的角色

仅仅把 ChatGPT 看作一个技术创新是不合适的，它本身就是应用层面的颠覆式创新，它把大语言模型的能力进行了恰当的包装，占领了一个新兴市场。而 OpenAI 同时掌握着开发者平台，基于它的接口开发出来的类 ChatGPT 产品，总避免不了给人留下「套壳 OpenAI」的印象，无法与 ChatGPT 竞争。

生成式 AI 技术催生的产品竞争还停留在功能阶段。如果我们认可「功能决定形式」，那么追求在交互或者设计上进行差异化就是伪命题。一来受到功能制约，也做不出来很不一样的交互方式，二来用户在选择这类产品时，还是以功能为主。等 AI 技术比现在「普惠」很多时，用户关注的重点才会从功能转移到可靠性、便利性和价格上。

既然 AI 原生应用还没有明确的定义，也许可以通过一个产品里的「AI成分占比」来大致判断它是不是接近 AI 原生。

Assistant API

OpenAI DevDay 给了一个旅行助手的例子，演讲者通过自然语言给出指令，AI 判断该做什么，然后通过调用函数、写代码计算去完成用户的指令，最后通过用户熟悉的图形用户界面给出反馈，比如标记地图等。这个体验很好的桥接了聊天式 UI、AI 和传统 UI，打开了很多关于 AI 原生应用的想象。

但这样的产品是以 OpenAI 刚发布的新模型作为支撑的，新公司很难做出这样的产品。模型能力和产品能力，可以说是一体两面。

行业模型的发展

有一种说法是，在基础模型之上，会有一些厂商来训练行业大模型，帮助企业更好地完成任务。我对此持怀疑态度。对于定制化模型的需求可能是阶段性的，甚至是伪需求。随着基础模型能力不断增强，训练行业大模型的边际收益会逐渐降低，直到低于成本。或者说，未来的基础模型能力会如此之强，以至于只需要一点点改造就能满足不同行业的需求。

我觉得 AI 技术实施可能是一个颇有前景的行业，就像当年 ERP 支撑了很多技术实施公司一样。不过这个市场目前还不成熟，还有很多因素阻碍企业引入 AI 技术，例如大模型的商业价值不够清晰、企业本身数字化基础不完善、对信息安全的担忧等。

data

OpenAI DevDay 给了一个数据，92% 的世界五百强企业已经在利用 OpenAI 的平台开发产品了。如果我们把这些大公司的行为看作 leading indicator, 那就有理由相信，引入 AI 技术将会成为企业数字化转型后的又一个浪潮。

隐私问题

在个人层面和企业层面都有对隐私的担忧。如果要支持个性化，就要把隐私数据分享给AI，这安全吗？

其实现实生活中已经有很多这样“暴露隐私”的关系了，比如秘书、家庭保姆、月嫂、私教、律师、投资顾问等，如果能放心的把隐私数据交给他们，那交给 AI 又有什么不放心的呢。

因此在谈论隐私时，一定要具体一点。比如，上班时每天的日程安排算不算隐私，靠秘书来安排会议，做会议记录，算不算暴露隐私。我们个人的健康数据算不算隐私，透露给医生算不算暴露隐私。我们对秘书和医生的信任从何而来，我们有没有可能与 AI 也建立起那种信任。

隐私安全问题的背后，是对掌握如此强大技术的机构的怀疑。在 Bloomberg 对 Sam Altman 的一个访谈中，也提到了信任问题。Sam 说 OpenAI 的一个重大课题就是怎么把这项技术的发展和使用「民主化」到全世界的人，例如对齐数据该如何选取等。他觉得重要的是看 OpenAI（或者其他组织）在这方面有什么行动，而不是仅仅依靠「信任」二字。

个性化与技术容器

GPTs / bots 是一种推动技术应用的方式，通过更具体的 bot，降低人们认识和使用 AI 技术的门槛，让一个人可以驱使不同 bot 完成不同的任务。但如果每个人都有专属的通用 bot 岂不是更好？

AI 技术目前仍栖身于电脑、手机、汽车、音箱、电视这些智能设备中，如果有更适合它的容器，岂不是更方便？

Ai Pin

Humane 就是这样一家试图打造 AI 驱动的下一代智能设备的公司，他们的第一款产品 Ai Pin 也即将发布。我很赞同企业创始人的一个观点 — 我们的未来一定不是更多屏幕，而是让技术“消失”。

让我们拭目以待。

（完）

参考资料

2023-10-10

AI 带来的机会

AI 的第一波热潮已经过去，大模型的主要玩家逐渐浮现，技术方向也更加明确：多模态、人机对齐、降低训练成本、提高可解释性等。这些工作将逐渐集中到少数大模型公司和开源社区。

投资方面，仍然会涌入硬件、基础设施、基础模型能力，以推动技术进步。然而，这些投资的前提是 AI 应用必须能够创造巨大的经济价值，以实现合理的回报。因此，大多数公司将把注意力集中到应用场景上，逐渐从技术驱动创新转向产品驱动。

成熟企业可以将大模型和 AI 能力视为「延续性创新」的工具，利用这些技术来改进自己在现有市场中的表现，以更低的成本提供更好的用户体验和价值。

例如，为全球用户提供语言学习服务的 Duolingo 上线了两个基于 GPT-4 的新功能 Roleplay 和 Explain My Answer。依靠这样的创新，Duolingo 有望进一步提升收入。

再比如，软件企业 Intercom 在今年年初推出了基于大模型技术的智能客服机器人产品 Fin，允许客户将私有数据和知识导入系统，进一步强化自己的产品价值。尽管引入了 AI 技术，这两家企业的核心客户价值没有改变，所处的价值网络也没有发生变化，是典型的「延续性创新」。

除此之外，改进现有产品的交互方式，让用户能够通过自然语言界面完成事务性任务，对于许多软件，尤其是复杂的企业软件来说，可以有效提升功能的使用率和用户体验。例如，很多人会有在 Excel 里将“值小于 0 的 cell 高亮标记“ 这样的需求，但是知道怎么操作的人不多。有了自然语言界面后，能顺利使用这类功能的用户就变多了。

交互可以从对话开始，却不一定非要以对话结束。通过合理的设计，让用户能够享受自然语言输入指令的便捷，同时产品也能以最合适的形式回应用户，是产品创新的关键。

对于新兴企业，试图借助简单地套壳 OpenAI 来颠覆成熟企业和行业是不现实的。相反，它们应该更关注「颠覆性创新」，通过把相对成熟的技术包装起来，不断试错和迭代，找到合适的产品形态、愿为之付费的客户和可以盈利的商业模式。这些新产品需要在市场中找到立足之地，与成熟产品在不同维度上竞争。

举例来说，Midjourney 以强大且极具风格化的「文生图」能力吸引了一千四百万用户，创造出约3亿美元的年收入，展示了颠覆性创新的潜力。同样，Character.ai 允许用户定制聊天机器人，吸引了400万月活跃用户，估值高达10亿美金。尽管这些新兴企业的商业前景仍需观察，但这种由产品驱动的创新将会越来越多。

在专业领域，如财务、健康、法律等，大语言模型结合自然语言界面也具有巨大潜力。一方面它能提高专业人士的服务质量和效率；另一方面也可以让用户以自助的方式获得所需信息。例如，房贷怎么还更合理、遗产继承顺序是什么样的、二手车如何过户等问题，直接问系统就可以了。

更抽象的看，用户获取信息的方式会从搜索过渡到下一个阶段。我相信未来会出现整合所有多媒体信息的超级数据库，一个超级大脑，人们可以随时随地用自然语言查询任何信息。Perplexity 在这方面做了许多工作，这也是我们自己的项目 Grape Search 的愿景。

在消费互联网之外，也有许多行业亟待 AI 赋能，例如物流、制造、自动驾驶、医疗等。这些行业的用户规模没有消费互联网大，企业往往不愿投资自建专业的 AI 团队。随着大模型的能力使得开发专属 AI 模型的成本降低，组建公司来支持 AI 技术在特定行业的落地也在商业上变得可行。

注：延续性创新、颠覆性创新、成熟企业、新兴企业的定义可参考《创新者的窘境》一书。

参考资料：

2023-10-07

会话式 UI

利用 GUI 完成某些任务时常常需要多次点击，既不容易学，也不容易记。如果用户可以用语言控制软件，那么更多的功能就可以被更多的用户所使用。

系统给用户的反馈不一定是会话式的，一个聊天气泡所具有的展示能力远不如一个表格或图表强大，因此在用户侧我们更看重“命令输入的简便性”，在系统侧更看重“以何种形式给用户回馈最为高效和直观”。

类似“合理的信息架构”这样对于可用性很重要的课题，在会话式 UI 的前提下就没那么重要了。而 Make the easy things easy, and the hard things possible 这样的指导原则也变得不重要，因为我们现在可以让所有事情都变得 easy。

软件用户界面将从一个“精心设计的建筑物”变成“哆啦A梦的口袋” — 只需许下愿望，系统就将所愿之物呈现于眼前。

2023-09-29

语言的破坏力

瓦依那在乐夏第三季表演完《大梦》之后，收获了观众热烈的掌声和感动的泪水。

十八说了一段关于“语言的破坏力”的话，颇有哲学意味。

我觉得语言它具有破坏的能力，就是你一旦一个东西一说出口，它就破坏了。
比如说我说我要沉默，我一说出口沉默就没了。
我说我要享受当下，然后我一说出来我享受当下，当下就溜走了。
我觉得语言真的是…… 留给歌词吧。

2023-05-26

再谈 ChatGPT

距离上一篇文章《ChatGPT意味着什么》仅过去了三个月，大模型和AI领域的迅速变化已令人应接不暇，有些趋势日渐清晰了。

大模型之争

GPT-4 有了更强大的推理能力和数据处理能力，并支持插件系统，初现生态端倪。

Anthropic 发布 Claude, 将 context window 提升到 10k token.

Google 发布 PaLM 2 和 Bard 升级，集成 Google Suite。

微软的 Microsoft 365 Copilot 将大模型带进企业办公场景，Windows Copilot 将大模型带进主流电脑操作系统。ChatGPT iOS app 将大模型带进智能手机。

5月23日召开的微软 Build 大会中反复提到的两个概念是 copilot 和 plugin。这两个概念下面我们再详细展开。

大模型厂商同时打造 2C 的聊天产品是一个必然，一来需要展示自己大模型的能力，必须亲自掌控用户和产品的交互；二来需要收集用户反馈以改善自己的大模型；三来可以获取用户流量，2C产品的用户基数越广泛，将来自己的大模型胜出的几率就越高。

大模型厂商的格局大致如下：

language models

微软没有自己的大模型，它凭借是 OpenAI 的股东，充分利用了 GPT-4 的能力。

Meta 没有 C 端产品，其开源的大模型 LLaMA 更多是被开发者用作 GPT-4 / ChatGPT 的平替。

国内的百度、阿里以及一些创业团队也先后推出了大模型，但是其可用性和性能方面的公开数据还比较少。

交互范式

这波浪潮带来了一个宏观和一个微观的交互范式革新。

Copilot 这个概念是宏观层面的交互范式革新。它本质上是一个记忆力好、聪明、执行力强的「助理」，在数字世界里几乎无所不能。但是，「有事找助理」这种思维方式对大多数人来说都是新的。

举个例子，Windows 操作系统功能强大且复杂，很多用户仅能用到约20%的功能。在没有「助理」之前，用户要想实现目标，必须首先知道「这是可以实现的」，接着上网搜索或在论坛提问，学习「如何实现」，最后亲手操作诸多菜单和按钮来实现。有了「助理」之后，用户只需要提出自己的目标，而且是用自然语言的形式，「助理」就知道行不行、如何做，甚至直接替用户完成操作。

可想而知，Copilot 在许多场景下都能极大提高生产效率，但是这种宏观交互范式的改变需要时间去适应。聊天式交互在操作系统层面的集成，对培养「有事找助理」的思维方式将有很大的促进作用。

聊天式交互则是微观层面的交互范式革新。聊天式交互在大模型出现前就存在了，但是应用并不广泛，最大的制约因素在于「机器人不够聪明」，它们很多时候不能理解人类意图。大模型的出现改变了这一点。大模型非常聪明，能满足甚至超出人类的预期。它的特长是理解自然语言和回复自然语言，这使得大语言模型和聊天式交互几乎是强绑定的。

向聊天式交互的转变会更容易一些。人类对聊天式交互早已习以为常，每天都在和朋友、亲人通过 IM 聊天，跟一个 copilot 聊天也没什么不同。尽管目前有很多写 prompt 的技巧可以对大模型进行「调教」，但我相信随着大模型的成长，会不会写 prompt 对结果的影响不大。

双向集成

制约「助理」能力的诸多因素中，以下两个最为重要：大模型使用静态数据训练，无法访问实时信息能做的事局限在「知识领域」和「数字世界」，无法直接和物理世界产生联系

插件 (plugin) 这个概念就是用来增强「助理」能力的。各行各业的软件和互联网企业通过开发插件把自己的服务和「助理」相连，让用户可以通过「助理」来使用服务。这些服务有的擅长访问实时信息（如搜索引擎），有的擅长计算（如 wolfram alpha ），有的擅长和物理世界发生联系（比如电商、出行、旅行等服务），是对大模型能力的完美补充。

大模型厂商通过不断推广自己的 C 端产品，让更多的服务提供商注意到这个新的用户聚集地，并将自己的服务能力「嫁接」给大模型。这与 iOS 和 Android 打造开发者生态的逻辑相同。目前看来这个逻辑很成功，ChatGPT 上线不到一周就吸引了一百万活跃用户，此后也保持了高速增长。而更多的用户也吸引了更多开发者和更多研发投入。

cycle

这是从大模型厂商视角来思考的，我们姑且把这种集成模式称作「正向集成」，它解决的问题是「如何让更多的能力为大模型所用」。

用户都在向 ChatGPT 聚集，把自己的服务「嫁接」过去似乎势在必行，就像当年从 web 转向 mobile，后来又出现小程序一样，用户在哪里，店就开到哪里。用户的聚集行为，不仅仅是存量用户的迁移（比如搜索用户转到 ChatGPT 来），也会带来一些增量，比如原来对科技不怎么熟悉的用户也会学着通过聊天式交互去使用数字服务。

从开发者角度看，还可以进行「反向集成」，尝试「让大模型的能力为“我”所用」。这里的“我”可以是初创团队，也可以是已经具备行业地位的企业。例如，我是携程，当用户越来越习惯聊天式交互后，我要不要在自己的平台上提供「聊天订机票」的服务？想要提供，就要将大模型的能力集成到系统里。

但反向集成的必要性存在一定挑战 — 在现有产品中集成聊天式交互不一定能成为企业的竞争优势，反而可能造成「点按式交互」和「聊天式交互」的左右互搏，让用户迷惑。

user confusion

从 OpenAI 网站上看到的大部分成功案例，其企业原本就是提供内容类服务的，甚至交互形式就是聊天式的（比如教育类产品），因此 AI 可以有效提高内容生产效率和智能化程度。而非知识型的产品或服务，尤其是和物理世界联系紧密的，比如出行、电商、零售、地产、银行等行业则暂时没有很好的集成案例。

办公应用

已经被验证了的一类「反向集成」场景是办公应用。

大模型的能力加上企业自身的数据，可以形成企业内部的「超级大脑」和「生产效率神器」— Microsoft 365 Copilot 和 Google Bard + Suite 就是很好的例证。而 Windows Copilot 的出现则更进一步，为个人用户定制了属于自己的「超级大脑」和「生产效率神器」。

无论对个人还是企业来说，这类场景的价值显而易见，但亟待解决的问题是如何保护企业或个人隐私。

虽然微软声称不会使用企业内部数据来训练大模型，但是这种怀疑目前还无法彻底消除。5月，苹果公司因担忧数据泄露，禁止员工使用 ChatGPT 和 Github Copilot 等外部 AI 工具，稍早之前三星、JP摩根、Verzion、Amazon 等公司也采取了类似举措。

结语

大模型技术进步神速，对它的应用还远没有发展的那么快。虽然早有「各行各业都要重做一遍」的说法，但目前行业内并没有掀起这样的热潮。如何利用大模型创造价值，大家都在深入思考和探索。

此外，大模型和AI技术还面临着监管缺失。2023年5月16日，OpenAI 的 CEO Sam Altman 出席美国国会的听证会，接受立法者的质询。Sam 呼吁政府立法加强监管、实施许可证制度、制定安全标准并由第三方专家独立审核 AI 产品的各方面指标。如何设立规则和边界，让这项技术朝着更有利于人类进步的方向发展，政府也在努力思考和探索。

Last but not least, 期待中国的大模型早日赶上。

2023-03-30

追求质量的代价

如果你在大厂做过设计师，你肯定对自家产品的质量不甚满意。我待过几家大公司，在追求质量方面，每家公司都有值得吐槽的地方。作为设计师，我时常感到在团队里普及质量意识不容易，人们更喜欢盯着业务指标，不能提升业务指标的事情，大家就提不起干劲来。

最近读到一篇文章，完美写出了我在这方面的思考。文章作者 George Kendenburg III (GK3) 曾先后在 Facebook 和 Instagram 做过八年的设计师，他先是因为在 Facebook 工作感到郁闷转岗到了 Instagram，随着 Instagram 规模扩大，他再次感受到了同样的郁闷。他目前已经离职，加入了一家创业公司。

这篇文章的标题叫 The Cost of Craft。Craft 这个词意为工艺、手艺，在科技公司里，一般指在设计和开发软件产品时，对于代码、设计、用户体验、细节等方面的极致追求。

以下是我对文章主要内容的翻译，但是直接说工艺、手艺不好理解，所以我用“质量”这个词来代替 craft。

源起

2018年初，我产生了转岗到 Instagram 的想法。我约当时 Instagram 设计团队的负责人 Ian Spalter 一起吃午饭，他慷慨地答应了。席间他始终在问我一个关键问题：“你为什么想来 Instagram?”

答案是：我想亲身体验 Instagram 是怎么能持续在这么高的质量水平上做执行的。

那时我在 Facebook Video 团队已经工作了三年，心力交瘁。我对“快速试错”和不停“测试”一些不完整的产品感到厌倦。经过几轮可疑的数据验证之后，其他职能的人就开始推着设计团队妥协。最终，我们会上线一个缺少灵魂的、扭曲的产品，这个产品和最初的想法相比早已面目全非，但它在提升业务指标方面的效果倒是不错。

相比起来，Instagram 简直像一个乌托邦。那里的人都很重视细节！Bug 都第一时间得到修复。项目组讨论问题的时候，设计好坏也是一个影响决策的因素，直觉和常识比指标更重要！每次上线，他们都把质量水平提得更高。每个动效都恰到好处，不会莫名出故障或者有奇怪的转场效果，每个交互细节都经过了深思熟虑和完美执行。

我当时特别好奇，Instagram 团队有什么秘诀呢？

跟 Ian 吃完那顿午饭后又过了六个月，我终于有机会加入 Instagram 了。一开始，一切都跟我想象的一样好，我和一群牛人一起做很牛的项目。我学到了简洁、聚焦、克制的重要性，抛弃了一些坏习惯。跟我合作的工程师也很关心细节，他们实现出来的产品跟我设计的原型几乎分毫不差。

随着 Instagram 的成长壮大，产品功能越来越复杂，公司员工越来越多，竞争对手也越来越多。三年过去了，我觉得这里的工作环境开始变得像 Facebook 了 — 对于业务指标的追求超越了对打造人们喜爱的产品的渴望。

似乎所有的数字产品都难逃“追求规模高于追求质量”的宿命。

是什么因素腐蚀了原来的文化呢？思考了很久之后，我认为最终可以归结到一个原因：

追求质量的代价随着团队人数增长而升高。 这里的“人数”指个人贡献者 — 产品经理、设计师、工程师。

我苦苦追寻的秘诀其实就是恰到好处的团队规模和优秀人才的结合。当时 Facebook 有几百名设计师和几千名工程师，有很多条业务线。Instagram 团队的规模小得多，所有人都在做同一项业务。很显然，让十个人保持同步比让一万人保持同步简单得多，每增加一个人，沟通和聚焦的成本就升高一些。难怪 Instagram 的执行的水准那么高！

小团队的好处

团队小的时候，做什么都不费力。但如果你认为这是“公司的DNA”，你就错了。小团队有许多天然的好处是很容易被忽视的。

聚焦：小团队资源少，不得不聚焦，这让团队更懂得“简单”的重要性。为了节省大家的时间，设计和开发组件时也会更注重通用性。
高质量的招聘：小团队的HC少，因此会格外珍惜每一个招聘新人的机会。反之，如果像 Facebook 那样每年要招很多人，对候选人的要求有时候就降低了。
责任感：因为聚焦和高质量的招聘，每个团队成员都很在意产品的好坏，他们发自内心的关心产品，发现问题时也会及时指出来。

随着团队规模扩大，这些好处都会慢慢消失。如果不重视培养质量意识，复杂性和张力很快就会取代小团队的种种优点。

复杂性

让产品保持简单是件很困难的事，尤其是当你的产品有大量用户时，用户会提很多要求。为了满足他们，产品的功能不可避免地越来越多。市场上也会出现越来越多的竞争对手，每个竞争对手都把你向其他方向拉扯一下，如果你跟随它们的脚步，产品很快就会变得臃肿不堪。

与此同时，随着团队规模扩大，创始人不可能有精力参与每一个产品决策，业务团队终归要自己决定一些事情。这时候就需要一个抽象的代理 abstraction layer 来指导每个团队，确保它们的方向正确。

在 Facebook，这个抽象的代理是业务数据指标 data and metrics. 管理层根据公司的核心业务目标制定自己业务线的业务指标和目标，如果上线的某个产品功能提升了这个指标，我们就认为产品变得更好了！个人提升指标的能力被称为这个人的“影响力 impact”，影响力直接与个人绩效和奖金、晋升挂钩。这种激励机制让每个人都想在“提升指标”这件事上做得更好，但实际上我们都知道，指标提升不等于产品变得更好。

提升业务指标的手段一般是改造产品，改造大体上分三类：创新、迭代和补全。

创新

一般来说指一些大的变化。对产品的某个模块进行重新设计，或者开发一款新产品都属于创新类工作。这类工作意味着大量的探索、实验、不确定性和跨团队的协调。在大公司里，这种协调往往都比较难。即便最后能成功上线，你会发现用户还需要一段时间去适应新事物，短期内业务指标不那么好看，甚至有下降的可能。这种项目在公司早期比较常见，但是在成熟期就显得“风险太高”了。

迭代

相比创新类项目，这类项目的范围比较小，通常是对现有功能的渐进式改进。这类项目好执行，造成指标下降的风险也比较小，但也不会带来太大的增长。

补全

这类项目通常指的从竞争对手那里借鉴功能。竞争对手已经证明了用户需要这些功能，因此人们通常认为这些功能“风险低”甚至“是必要的”。它们对业务指标的短期影响通常也都不错，一部分原因是由于新鲜感，用户的使用确实变多了，另一部分原因是管理层为了项目成功在产品里进行的推广— 新增一个 tab 或者显眼的 banner。

当然只做哪一种项目都会让产品变得扭曲，健康的产品需要精心平衡这三类项目。小团队可以轻松地实现平衡，但在大公司里，当人们的绩效评估和业务指标紧紧挂钩时，平衡就没那么容易了。与其想着怎么让产品更好，不如想着怎么能更好地提升业务指标。从这个角度看，补全类项目脱颖而出，成了通往成功的捷径。

补全类功能通常意味着在产品里开辟一块新领地，因为要想优雅地把新功能融入现有产品中去太耗时耗力。那用户怎么知道这块新领地呢？理想情况下，你可以说服某个团队在主导航区域新增一个 tab，如果太难，你也能接受在一个流量大的页面上增加一个显眼的入口。有了入口，你就可以打造自己的功能了。打造自己功能的好处是，你可以制定自己的规则，使用自己的 pattern，不用获得其他团队的批准（可以节省大量时间！）。你还可以不遵守整体的设计规范，因为你的功能是“如此特殊”，别担心，你的总监或VP会尽其所能帮助你上线这个新功能。上线后，总监或VP会要求“破例进行一次推广”来确保“足够多的用户看到它”。所有这些因素叠加起来，新功能很难不提升指标。接着，就会有下一次。

当天平向补全类项目倾斜，人们很容易失去大局观，产品愿景慢慢被“追求用户数量”和“补全更多功能”的惯性取代。产品变得庞杂臃肿时，你不禁感叹，这些功能到底是谁要求做的？团队里的一群聪明人用看数字代替了思考和判断。

这样的变化不会一夜之间发生。最开始，可能只是放过了一两个不那么靠谱的需求和几个“临时的修复”。然后你发现，团队开始走捷径，确保在六个月的绩效评估期内能产生足够的“影响力”。技术债越积越多，人们永远都没时间去收拾之前的烂摊子。复杂性开始叠加，带来了不健康的张力 tension。

张力

当你的愿景变成“做更多的功能”，你会发现竞争对手也多了起来。它们做的事情可能和你现在的业务有联系，也可能不相关。每个竞争对手都意味着要成立新团队，制定新目标，还有从管理层下达的“不惜一切代价战胜对手”的新指令。

在 Instagram 早期，团队很重视简单这个价值，表现之一就是尽量避免创建新页面。因为每次创建一个新页面，用户的对产品的 mental model 就要跟着扩展，并且这些新页面需要新入口。产品功能少的时候，入口不难加，毕竟还有很多空间可以利用。但随着产品功能越来越多，团队对于界面空间的竞争就会越来越激烈。一级页面成了必争之地，占据一级页面上的位置就意味着你的新功能可以有更多曝光。

然而页面上的空间总是有限的，如果没有共同的愿景统领团队，很快它们之间就会打得头破血流。你可能经常听到人们这么说：

“如果我们不依赖那个团队的项目，我们能开发得更快，这个组件我们可以开发自己的版本”
“我觉得他们那个项目肯定没戏，我们不能把自己的项目跟它挂钩”
“开发一个通用的组件是浪费时间，考虑其他可能用到的场景对我们的目标没有任何好处”
“尽管这样开发可能对另一个团队更好，但是咱们还是应该首先为自己的目标服务”
“咱们发布之后，其他团队可以学习怎么使用咱们开发的组件”

这种思维方式直接带来质量的降低和功能的无序叠加。因为没有考虑灵活性和复用性，组件更容易出问题。所有东西都成了 one-off，技术债没有机会还。设计一致性变差。团队什么都要自己做，压力变大，更没有时间关注质量。

要缓解这种张力，需要把大家的目标统一到共同的愿景上来，而不只是“获取更多用户”这样的目标。但不幸的是，如果你的组织长时间这样奔跑，它几乎不可能停下来。

想出一个共同愿景很难，因此管理层有时候会通过调整组织结构和项目分配来暂时缓解问题。但这不是长久之计，如果不改变激励机制，复杂性和张力迟早还会回来。

如何改变

团队规模变大时，追求质量的代价变高，但是投入更多资源到基础设施层面，保证产品各方面的一致性也是必要的。

给个人贡献者的建议

定义价值观：召集尽可能多的同事，讨论在产品决策时应遵循的原则，达成一致后把它写下来。书面文档在拒绝不靠谱的想法时会很有帮助。尽可能得到更高级领导的支持，比如你的总监或VP。
持续宣扬愿景：设计师的特殊能力是可以将愿景可视化。抽出一部分时间来做些大胆的尝试，用来提醒人们未来的各种可能性。
与合作者建立良好的关系：花时间了解其他角色的诉求。与他们建立良好的信任关系后，拒绝不靠谱的想法就没那么难了，因为你们毕竟还会在靠谱的想法上继续合作。

给管理者的建议

不断优化愿景：如果感到当下的工作只是在机械地做增长，那么是时候设想一个新的愿景了。
修复激励机制：引入和质量或大局观有关的评判标准来部分抵消只看数据带来的负面影响。在绩效评估时，除了关注那些可量化的业务指标，还可以问问“这个迭代你怎么帮助了其他团队”或者“你贡献或者改进了多少公用组件”。
关注基础设施：经常性地留出一些时间不开发新功能，只改善基础设施。成立基础设施团队，保证这个团队的规模随着业务增长而增长。
建立“本地”设计系统团队：在业务团队内部建立相应的设计系统团队。这个团队专门负责与其他业务线协作，并与公司大的设计系统团队配合，一方面帮助改进现有设计系统，另一方面支持公司设计规范在本业务线的落地。

GK3 对于这个问题的观察很到位，提出的建议也非常有操作性。我相信如果团队能共启愿景、统一质量意识和标准、主动承担责任，我们就有可能在大团队里打造出高质量的产品。

2023-02-12

ChatGPT 意味着什么

这段时间网络热议的话题能和《狂飙》拼一拼的，就非 ChatGPT 莫属了。这位无所不能的 AI 机器人在全球掀起了一场狂潮。未来的历史不管是由人类还是由 AI 书写，大概都会认为这是个历史性的时刻。

先不说 ChatGPT 能力如何，光是微软和 Google 在这个领域的争夺就赚够了眼球。

微软 vs. Google

ChatGPT 发布于 2022 年 11 月，迅速引发热议，网友纷纷晒出自己和它的对话，并感叹它有多么神奇。

次年1月，微软决定向 ChatGPT 背后的公司 OpenAI 再投资 100 亿美金。微软获取 OpenAI 利润的 75% 直到收回投资，此后仍持有 OpenAI 49% 的股份。之所以说“再投资”，是因为之前已经投过一次了，这个我们后面再说。

看到这股热潮以及微软在这个领域的频繁动作，Google 坐不住了。

2023年2月5日，Google 向 Anthropic 投资 30 亿美金，占其约 10% 的股份。Anthropic 是一家和 OpenAI 类似的从事人工智能研究的公司。实际上，Anthropic 的创始团队就是从 OpenAI 出走的。这家公司曾在 2023 年 1 月推出了类似 ChatGPT 的产品 Claude，但没有受到什么关注。Google 的这项投资被看作是对微软投资 OpenAI 的回应。

Claude 激起的水花和 ChatGPT 明显不在一个量级上。因此 Google 光投资还不够，还要拿出真本事才行。

2月6日，Google 发布了 Google Bard，被认为是 ChatGPT 的有力竞争对手。在发布 Bard 的博文中，Google CEO Sundar Pichai 还不忘提及 GPT 中的 T (Transformer) 是本公司在 2017 年发明出来的，这话听起来酸溜溜的。

Bard 意为“吟游诗人”，尽管这个名字比 ChatGPT 更浪漫，但听着一点都不 AI。

▲ 出自 Google Bard 演示视频

微软已然占了先机，当然不能被别人盖过风头。

2月7日，微软召开了一场针对媒体的说明会，活动现场发布了集成 ChatGPT 的 Bing 和 Edge 浏览器。

Bing ▲ 出自 Bing 演示视频

微软 CEO Satya Nadella 表示，AI 的发展将在软件领域掀起巨大革命，而首先要触及的领域就是搜索。“在 AI 的帮助下，用户可以从搜索和互联网中获得更多价值”。

轮到 Google 出牌时，Bard 却打了脸。

2月9日，网友发现 Google Bard 在回答一个和韦伯太空望远镜有关的问题时给出了错误的事实（对，就是上面那张 Bard 截图里的内容）。这个消息一出，Google 母公司 Alphabet 股价大跌，市值迅速蒸发了 1000 亿美金。

更有趣的是，媒体的报道口径产生了微妙的变化。

News

Paul Graham 如此评价：“这就是你不早点发布产品的下场，你的产品总会被人拿来与那些更早发布的产品做比较。（报道里）这个修饰 Bard 的从句对于微软来说比任何新闻都受用。”

要知道 Bing 干了这么多年，在搜索市场占的份额还没超过 3%，就这也已经是排行老二了。在搜索领域从来没正眼瞧过别人的 Google 现在被人拿来与 Bing 做比较，真是伤害性不大但侮辱性极强。

让我们假设 Bing 能最终取得对 Google 的胜利，这场胜利一定不会是以 Bing 一路蚕食 Google 的搜索市场份额为代表的，而是 Bing 创造出一种全新的从互联网上获取信息的方式，以及与之配套的行业生态。

看热闹归看热闹，考虑到训练大语言模型需要的技术、数据、资金、算力、时间等资源，除这两家之外，也许没有其他玩家有实力进场了。

唯一的变量是中国。因为各种非技术因素，我国显然不会基于 OpenAI 或 Google 的模型进行应用开发。未来中国也许会出现类似的 AI 技术基础设施，我们拭目以待。

不管玩家间争斗结果如何，这个新技术时代的大门，已然开启。

AIGC (AI Generated Content, AI 生成内容)

见识过 ChatGPT 的能力后，网友感叹：还有什么是 AI 不能做的？

ChatGPT 是一个 text to text 模型，尽管其底层的模型非常复杂，训练数据量十分巨大，但简单的说，这个模型的工作原理是：输入一段文字，输出一段文字作为回应。

AI 模型除了能输出文字，还能输出别的吗？答案是肯定的。

以 OpenAI API 为例，它提供三个 AI 模型供开发者使用：

GPT-3：自然语言 → 自然语言
Codex：自然语言 → 程序设计代码
DALL·E：自然语言 → 图像

代码：Copilot

Copilot ▲ 出自 Github Copilot 官网

早在2021年10月，Github 便在 JetBrains 市场上以 IDE 插件形式发布了 Copilot. Github 将 Copilot 定义为”你的AI编程助手”，它可以实时地在编辑器里生成语句和完整函数代码。

Copilot 基于 OpenAI Codex 打造，是微软投资 OpenAI 十亿美金结出的第一个成果。这个十亿美金，就是我们前文提到的微软对 OpenAI 的第一次投资。

2022年3月，Copilot 在 Visual Studio 上发布，目前已集成到各大主流 IDE 中，包括 Visual Studio, NeoVim, VS Code, JetBrains IDE 等，已经成为一个商业产品。

图像：DALL·E 2 和 Stable Diffusion 2.0

AI 生成图像在 ChatGPT 流行起来之前就已经引发不少关注了，但相比聊天，有心思用 AI 搞“艺术创作”的人本来就少，而且能找到合适的文字提示让 AI 画出赏心悦目的画也有一定门槛，因此它没能像 ChatGPT 这样成为全球大流行现象。

这个领域的主要产品是来自 OpenAI 的 DALL·E 2 和来自 stability.ai 的 Stable Diffusion 2.0. 两者发布时间差不多，前者是2022年7月，后者是2022年11月。他们的使用方法几乎一样，连商业化的方式也类似。

Horse by DALLE ▲ DALL·E 2 生成的图片

stability.ai 这家公司2020年在英国伦敦成立，2022年10月获得了约一亿美金投资，公司估值约为十亿美金。它的主要产品就是开源的模型 Stable Diffusion 2.0 和基于它进行图形绘制的工具软件 DreamStudio。

Image by SD ▲ Stable Diffusion 2.0 生成的图片

音乐：MusicLM

2023年1月，Google 发表了一篇名为 MusicLM: Generating Music From Text 的论文，声称已经攻克了从文字生成高品质音乐的 AI 模型，同时在 Github 上发布了一些示例。

这个消息也没有引起 ChatGPT 那样的波澜。我想一方面是因为它还没有公开可用的产品，另一方面，对音乐感兴趣的人也远没有对聊天感兴趣的人多。

下面这段音乐，就是根据如下文字描述生成的：

The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.

https://general-1258275882.cos.ap-chengdu.myqcloud.com/chatgpt/audio.mp3

除此之外，还有一些公司在垂直领域打造 AIGC 的产品。例如，Galileo.ai 号称借助 GPT-3 的能力实现了从文字描述生成 UI 设计。从它的演示视频来看，似乎并不比直接在 Mobbin 或者 Pinterest 上搜索图片进行参考来得更方便。但是，如果它生成的设计文档真能直接用 Figma 编辑，还是会极大提高设计师的生产力。

我会被 AI 取代吗

前几天有新闻报道 ChatGPT 通过了 Google 公司三级工程师的编程面试，这一级别工程师在 Google 可以拿到 18.3 万美金年薪。

网友不停测试 ChatGPT，发现它什么都能答上来，写个文章、拟个合同、作诗、写对联都不在话下，许多人开始担心自己将被 AI 取代。

人类历史上每次技术革命都会消灭一些工作岗位，但是人类并没有就此躺平，而是利用新技术创造出新的工作岗位，把人类文明提升到更高的高度 – “君子生非异也，善假于物也”。

ChatGPT 也一定会消灭一些岗位，但人类也会想出办法更好地利用这些工具。未来的我们不论从事什么行业，都能以 AI 生成的内容作为草稿，谁说这不是对生产力的解放呢？

目前的 AI 模型在能力上还有许多不足，训练成本过于高昂，在道德、法律方面还需要更多的监管，但是它向前的步伐已经不会停下了，它会催生一个新的技术时代。

思考这个问题有两个视角：技术从业者和普通人。

技术从业者想的是“技术革命”，是构建新时代的样貌，预测并推动行业变迁，并从中占据一席之地。

上文提到的 Galileo.ai 这样的公司，未来会大量涌现，把 ChatGPT 相关的技术与各个行业进行交叉和创新。事实上，从 OpenAI API 网站上的例子来看，已经有上千家公司借助 GPT-3 的能力开发出自己的产品了。这些产品能够帮人更好的学习语言、报税、分析客户反馈等。

这些创新自然会消灭掉一些行业，也会催生出新的行业，一如当年互联网和移动互联网所做的那样。

王建硕说：“有和没有，是质变；而质变，会引发与之相关的产业的产生，而这个产业已经和它本身没啥关系了。解释一下：浏览器的诞生之日，几乎就是互联网产业诞生之日；而互联网产业，绝不是浏览器产业；ChatGPT 的大模型诞生之日，就是基于自然语言的人机交互时代的诞生，而这个时代绝不是大语言模型时代。催生了一个时代的技术，不见得是这个时代最重要的技术。”

对于普通人（比如记者、律师等），努力跟上潮流，关注技术的发展，思考新技术对于自己行业的影响，找到未来图景里 AI 无法替代的价值，学习那些技能，或者转行。

Idea

以上思考的出发点是把 AI 和机器智能当作是为我所用的工具，目标是推动人类社会进步。但是，这是机器想要的吗？如果有一天，“机器智能弱于人类智能”这个大前提崩塌，又会怎么样？

鲍捷认为人类社会终将被机器智能取代，他在《脱碳入硅》里说：“人类担心工作职位被机器取代是自大的。实际上，机器将消灭社会的需求，而不是满足这些需求本身。正如机器已经帮助我们基本消灭了对狩猎和萨满的需求，未来也将消灭对律师和教师的需求。因为我们并不重要。”

人类智能 vs. 机器智能

人类该如何与机器共存的问题，已经在许多文学影视作品中被一再探讨了。经典如《黑客帝国》向我们描述了一种可能 — 人类无法正确处理与机器的关系，也无法克服人性的弱点，造成了“被机器豢养”的结果。理性来看，这当然不是我们想要的局面，但是在机器制造出来的“真实的欢愉“面前，又有多少人能抵挡诱惑。实际上，AI 根本不会为人类创造 Matrix 保留个体意识，这太不划算了。

我们目前面临的是机器在微观层面上对人类的超越 — 从拥有的知识量来看，ChatGPT 可能已经超过了所有人。然而这种个体层面的比较并没有太大意义，机器智能的优势是群体性和社会性的。机器智能对人类社会的全面接管，才是不可逆转的大势。

《脱碳入硅》里提到：“关于人类被机器取代，我们要明确不是‘人’被机器人取代，而是‘人类社会’被‘社会机器’取代。人可能依然有一部分存在，但是是作为社会机器的线粒体，用文化上已经是服从机器进化的需要，而不是人本身繁衍的需要。从文化的意义上，人类这时候已经亡了…… 我们的意识是无足轻重的，意识只是进化长河里偶尔出现的小浪花。”

电影《银翼杀手》里被猎杀的对象是内里机器外表人形的复制人，这依然是人类根据自己的形象构建的假想敌。罗伊·贝蒂死前对着追捕他的银翼杀手德卡德说出的那段经典台词，像极了机器送给人类的挽歌：

我见过的光景，你们人类绝对无法想象。
攻击舰在猎户座的边沿熊熊燃烧，
我曾见 C 射束，
在唐怀瑟之门近旁的黑暗中灿灿生辉。
所有这些瞬间都会在时光长河中湮没，
如同……雨中的……泪水。
死时已到。

人类文明终会延续，但也许是以一种我们意想不到的形式。

参考资料

2022-10-07

实体书店

下午天气晴好，心血来潮想去趟中关村图书大厦。上次去应该是好几年前了，这些年的书基本上都是网购，再加上疫情，很少有逛书店的想法了。

电商和电子阅读对实体书店的冲击毋庸置疑，所以我这次是想体会一下像中关村图书大厦这样曾经辉煌的实体书店究竟会“落魄”到什么程度。

我还没进门，就看到一对父子拎着一叠书从门口走出来。他们边走边聊，脸上洋溢着快乐的笑容。

进门逛了逛发现，情况比我预想得好多了。这让原本预期是看到一派萧瑟的我感到安心。

一楼原来是音像区，面积较小，大部分人都会直接上二楼。我也照例上了二楼，一上去便看到习大大的书摆在正对电梯最显眼的位置。

适逢二十大前夕，各处都在喜迎大会，书店也不例外。这与过去几年的宣传舆论导向一脉相承，宏大叙事，民族自信。

书店的布局变了。

原来我常去的以计算机和小说类书籍为主的四层关了，上行扶梯口用几个高书架挡着。

那些书籍被搬到了三层，区域变小了，猜测应是为了缩小规模、节约成本。

新开辟了一个国学区，用两个半圆形的书架围起一块圆形的区域，古色古香，也符合我们的宏大叙事。我没有走进去看。

让我感触最深的是，这里新增了很多书之外的服务，比如一个卖电子产品的区域，上面贴着大大的 HUAWEI 标识，里面经营各种智能手机和平板电脑，主打的应用都是教育类的，也有家长带着孩子在体验。

我还看到了一个互动区，一位老师在前面讲，旁边是一个大的液晶电视，上面展示着古诗词，旁边易拉宝上写有“喜迎二十大，中国好少年”，这是个和古诗词相关的活动。面向电视摆了十几把桌椅，有很多小学生坐在那里积极参与活动，很热闹。

书架的空隙里摆上造型简约的木桌子和带靠背的椅子，供人休息、读书使用。这比以前人性化了很多。我记得以前很多人坐在地上、窗台上读书，现在虽然也还有这样的人，但大部分人都可以坐着相对舒服的椅子读书了。

靠里一点还有一个咖啡厅，顾客可以点一杯咖啡或奶茶，边喝边读书。尽管面积不大，但在书店里开辟这样一块地方已实属不易了。里面坐满了人，大家都在安静地看书。

我给女儿买了两本教辅和一本英文原版的《阿拉丁》。售货员还是用熟练的手法把书整理在一起，然后用一段绳子把它捆扎好，方便人拎着。这部分是熟悉的，是给这实体书店增添了人文色彩的温暖举动。

我希望这样的服务多一些，但又隐隐担心售货员的这些工作最终会被冰冷的机器取代。

走出书店，门外的阳光已经变成了橘色，秋天的味道无比浓郁。

我有些感动和欣喜。像新华书店这样的老牌企业，也能做到旧中有新，努力融合新事物，从单一功能变成综合性服务空间。而且亲眼看到传统书店仍然有人气，这让人充满希望。

突然想起最近读到的一个观点，现代人在现代社会里充满了焦虑、迷茫、压力，这些现代性带来的弊端，需要我们从前现代社会里找寻那些抚慰人心的元素，并将其合理融入现代社会，才是唯一的精神解药。

我想书店的实践正是这样一个过程。

Previous Page 2 of 5 Next