每一个输入框都会获得一个 LLM。

每一个编辑器都会被重构。

LinkedIn 的两个生成式 AI 应用场景

最近在使用 LinkedIn 网站时,我发现了两个使用生成式 AI 的场景,感觉非常恰当且实用。

一、为帖子增加「相关问题」

在信息流每个帖子下方,系统会根据帖子内容建议一些相关的问题,用户有兴趣的话可以点击了解。

LinkedIn

点击后系统会打开一个聊天机器人的用户界面为用户呈现答案,支持多轮对话。

LinkedIn

这一功能有效结合了 LinkedIn 网站上的内容和生成式 AI 的优势。对平台来说,可以增加产品的使用率;对用户来说,可以及时满足好奇心和探索欲望。例如,在某个职业发展的帖子下,系统可能会建议“如何提升职业竞争力?”等问题,这些问题的答案可以帮助用户更好地理解和应用帖子中的信息。

二、为职位增加「智能评估助手」

在每个职位详情页面上,增加了求职者可能关心的问题,比如了解更详细的公司情况、我是否适合这个岗位、我该如何包装自己来提升应聘成功率等。

LinkedIn

点击后,系统会根据用户的个人档案和职位描述来评估契合程度。

LinkedIn

还会给出更多问题帮助用户进一步挖掘。

LinkedIn

这个功能充分利用了生成式 AI 的优势,帮助用户在探索工作的过程中更深入地了解自己和岗位需求。例如,当用户查看一个数据分析师职位时,系统可能会评估用户的技能匹配度,并提出建议如何提升相关技能。

虽然尚不清楚这两个功能的数据表现,但我相信这些功能应该是非常有效的,因为它们基于 LinkedIn 原有功能,并借助生成式 AI 来进一步提升核心价值。

这种创新不仅提升了用户体验,也增强了用户对平台的信任度。

海朋森《我们的歌谣》:

各自怀着各自的心事
你们各自握着各自的苹果

Figma Config 2024 & AI

Figma 的产品力还是很棒的,今年的大会上发布了很多新功能,而且能看出来是那种从用户出发的功能。

我印象深刻的有两个。

一是 suggest auto layout。用户把一个组件设计好之后,可以让系统把它转化为自动布局。设计的时候经常遇到这个场景,把元素摆来摆去,尝试不同的布局,最后定下来一种,需要转换为自动布局方便复用和修改。一旦元素多了,转换为自动布局的过程挺费脑力和体力的,如果系统能自动做这件事,哪怕只是建议,也能提高效率。

二是新产品 Figma Slides。很多人都已经在用 Figma 制作幻灯片了,Figma 顺势而为推出一个专做幻灯片的模式,让用户操作更加顺畅 —— 我相信这是观察用户社区得来的想法。

AI 的功能当然也很棒,内容填充、图片生成、自动命名图层、改写文案、更强大的搜索等等,能想到的几乎都做了。还有帮设计师从无到有生成设计的 Make Design —— 提示词生成设计稿。

Twitter 上的设计师对于 Figma AI 有一种复杂的情绪。

有人担心自己的设计稿被拿去训练,有人担心自己的工作被取代,有人想要保持最后的尊严,给设计稿贴上「纯手工命名图层」的骄傲勋章,还有人呼唤 Sketch 来拯救广大设计师……

其实 AI 取代一部分 UI 设计工作是必然的,这是由软件设计的本质决定的。

  1. UI 设计中很大一部分是遵循规则和模式的,而不是个人艺术表达。
  2. UI 设计是基于背后的业务数据模型的。
  3. 软件 UI 设计最终要转换为代码。

也许 AI 无法理解可用性原则、格式塔法则等,但是它可以通过训练“学习”成千上万的设计,找到其中的模式,而生成代码、排列像素等工作本身就是它的强项。

所以,当“程序员朋友们点击一个按钮生成一个不错的 UI” 这样的场景出现的时候,我们也无需感到惊诧。

AI 的局限恰恰也在于它的优势 —— 学习大量设计从中找到模式 —— 这样的方式只能生成出来平均的、还不错的 UI,无法产出原创、独特的设计。

这部分是人类设计师的强项。

所以,人类设计师能做的,就是提高自己的品味,能分辨 AI 生成物的好坏,以及生产出原创、独特的设计。

绘画、音乐什么的,也是如此。

该怎么教育孩子

这几天姜萍刷屏了。

姜萍在演算数学题

在江苏一所中专学校学习服装设计的她花两年自学高等数学,在一个全球性的数学竞赛中名列第12名。

排在她前面的人均来自北大、清华、剑桥大学、麻省理工等名校。

这是一个很励志的故事,再次印证了”兴趣是最好的老师“那句话。当然确实也有一位水平高的老师一直指导和鼓励她在数学道路上前行。

姜萍:“数学更像我一个朋友,问题解决出来的时候,特别快乐;做不出来的时候,会很痛苦。”


这几天欧洲杯开赛,西班牙队球员亚马尔刷新了最年轻出场球员纪录——16岁338天。他在首场对阵克罗地亚的比赛中送出一记助攻。

亚马尔

很巧,也是17岁,如果上高中的话应该是个高三学生。在咱们国家,哪怕你踢得比罗纳尔多还好,怕也要被父母逼着刷题准备高考吧。


今年海淀小升初取消了点招,统一网报志愿然后摇号,基本靠运气,无数家长的“小强梦”破碎。

摇号中签率

填报这个表格前几行的学校却没有中签的那群孩子,无疑是非常优秀的,每个手上都有不止一个奥数奖牌。可是上初中以后呢,还有多少人会坚持学奥数?我相信很少。

孩子小学期间超前学习数学,为了奥数成绩搭上所有课外时间,有多少人是像姜萍那样享受这个过程的?


AI越来越强大,未来会变成什么样子,什么岗位消失,怎样的新岗位出现,无人知晓。

作为一个小学生的爸爸,看到女儿解不出应用题、计算出错时,也会感到焦急。同时又有一种矛盾的心理,因为她只要拿起手边的计算器、电脑、手机,任何一个,都能很快得到结果,那为什么还要下功夫去训练速算、巧算呢?是为了训练数学思维?

作为家长,我们现在应该教给孩子什么呢?

我觉得下面几个能力很重要。

一、沟通能力。汉语、英语、逻辑是与数字生命交流的基础。这是我们的语言和思考方式,数字生命很好地掌握了我们的语言,我们也要掌握好。

二、编程。这是数字生命的语言,我们应该掌握它们的语言,进而更好地理解它们的思考方式。

三、艺术鉴赏和创作。除了劳动,人类还需要艺术来滋养心灵。

四、解决问题的能力。人类是在解决一个又一个的问题中前行,不管宏观还是微观,具备良好的分析、解决问题的能力很关键。

五、幸福的能力。所有的能力都是为了更好地工作和生活,但最终是为了获得幸福。幸福是一种心理状态,如何调整心灵和外界环境的交互,让自己能够感受到幸福,绝对是一种了不起的能力。


我也看不清目的地的模样,只能教给她在旅途中校准自己的一些技巧。

这些技巧当然也会过时,只希望她能慢慢掌握自己习得这些技巧的元能力。

WWDC24 有点惊喜

近几年的苹果发布会一直被吐槽“挤牙膏”式更新,但我觉得今年的 WWDC 还是有点东西的。

第一个感受是 Craig 拼了老命,讲完这个讲那个,还在楼梯间跳上跳下(替身演员?),真不容易。

第二个感受是苹果还是最会讲故事的,它能把这些新功能、新技术的使用带入现实场景,让用户共情。

举两个例子。

下面这段讲的是用苹果手表的 Double Tap 功能开启定时,当时看得我一激灵,因为我自己就曾有过抱着娃操作闹钟,感到特别不方便的体验。相信有过哄睡经验的父母都对这一场景深有体会。

double tap

下面这段讲的是 AirPods 的自动消除噪音功能。我有过很多次打电话时听到对面传来的噪音或者担心自己身边的噪音传到对方耳朵里的经历。视频用短短几秒钟就把这一场景展现的淋漓尽致,清楚的说明了这个功能解决了什么问题,以及解决得有多好。

airpods

这种以用户为中心的叙事方式比 Google 发布会上不停地讲功能的方式高级很多。


发布会先讲了 iOS, iPadOS, macOS 的更新,我觉得有三个点还挺戳的。

Math Notes & Interactive Graphing

用户可以使用 Apple Pencil 在备忘录里手写数学算式或公式,系统自动识别并计算,还能把计算结果以相同的手写体展示出来。

math notes 1

用户还能设置参数变量,让系统生成函数图像,并且实时调整参数,观察函数图像的变化,寻找问题的最优解。自由调整,实时反馈 —— 这是验证想法、创造新事物的最好方式。

math notes 2

Smart Script

很多用户使用 iPad 和 Pencil 以手写的形式做笔记,新功能可以自动优化用户的字体,让它看起来更美观、更易读,还可以把复制粘贴插入的文字自动转换成用户的手写体,最终帮用户打造出一篇精美的手写笔记。

smart script

这是苹果的风格 —— 把机器学习算法这种高科技用到特别细节之处,把体验提升一点,再提升一点。累积起来,体验就比其他平台高出很多。

iPhone Mirroring

这个新功能让用户可以直接在 Mac 上操作 iPhone,把跨设备做到了极致。

iphone mirroring

在 Mac 上不仅可以正常使用手机的所有功能,还能接收手机通知、使用电脑键盘输入,甚至把电脑上的文件直接拖拽进某个手机 App 中。

iphone mirroring

操作过程中,手机能一直保持锁定或待机状态。

这很好的解决了我们在用电脑时,突然来了一个事情,需要手忙脚乱的去找手机处理的情况。

又是一个细节,但苹果就是愿意在这种细节上投入很多。


重头戏 AI 放到了最后,苹果还玩了一个可爱的梗,把它叫做 Apple Intelligence.

我觉得有个误解就是 Apple 和 OpenAI 合作,iOS 里的生成式 AI 相关的功能都是基于 GPT 做的。实际上,发布会主要在讲苹果自家的 AI 能力,与 ChatGPT 的整合只是其中一个场景,占了很小的篇幅。

首先是 AI 产品的原则,整体和其他大厂类似,但只有苹果提了 Intuitive,这点底色不能丢。

AI principles

文字场景 —— 系统级的文本起草、优化、改写功能,可以被内置和第三方应用无缝唤起。

writing tools

图片场景里最有趣的是 Genmoji 和 Image Playground。

Genmoji 属于好玩的功能,根据用户输入的文字生成新的 emoji.

genmoji

Image Playground 有文生图能力,既可以独立使用,也可以嵌入到其他 app 中使用。

image playground

image playground in notes

Agent 场景 —— 根据用户的语言指示调用多个 app 完成任务,有点像之前的 workflows 功能,发布会上也没展示太多细节。

actions

Siri 的更新 —— 主要有这么几点:

  • 更好地记住对话的上下文
  • 除了语音,还支持打字交流
  • 可以询问关于手机功能、设置相关的内容
  • 可以直接针对当前手机屏幕上的内容进行提问
  • 对手机上的所有信息都有感知(比如邮件、短信、文件等等)

siri

ChatGPT 整合 —— Siri 认为有必要时会尝试调用 ChatGPT,在用户同意的情况下,Siri 会把当前的请求交由 ChatGPT 来回复。

siri chatgpt

siri chatgpt

Developer SDK —— 虽然只在结尾处简单提了一下,但相关的 API 升级有重要意义。一方面,开发者可以更方便地在自己的 app 里集成 Apple Intelligence,比如添加 Image Playground 功能;另一方面,开发者也可以把自己独有的能力接入到 Siri 中,使之得到充分利用。

sdk


这场一小时四十分钟的发布会内容塞得满满的,或许是抱着对 AI 产品的期待,我看到了最后。事实证明还是值得一看的。

尽管说起来这些生成式 AI 的产品、场景没什么新鲜的,但苹果做的东西真正展示了 intuitive 和 integrated,而 integrated 这点的确是 OS 厂商独有的优势。

思考 AI 变革的框架:平台迁移、软件进化与 AGI

OpenAI 发布了 GPT-4o 和很酷的语音交互,谷歌发布了包括 AI 搜索在内的一系列新产品,微软把 AI 和 Windows 进行了更深度的整合,同时对整个技术栈进行改造,即将召开的苹果发布会想必也会重点讲 AI。

生成式 AI 无疑是革命性的,但这种变革是什么层面的,我们应该如何理解这种变革?

我觉得有三种思考框架:

  • 平台的迁移
  • 软件形态革命
  • 通往 AGI 之路

平台的迁移

最保守的理解是把它看作一次平台迁移,就像之前的 PC、互联网、移动互联网那样。我们期待的 AI-native 应用大爆发就是这个思路,“把所有 app 重做一遍”、“相比 GPT-5,我更期待 super app” 等论点,也是在此框架下,用移动互联网的生态进行类比。

就目前的落地场景来看,一方面它在那些有明确对错标准且容易检验的领域日渐成熟,比如生成代码、SQL命令等,另一方面它在那些没有明确对错之分的领域也得到广泛应用,比如创意写作、头脑风暴、情感陪伴、绘图等。

大厂会持续用 AI 为自家产品助力,可能是增加新功能,例如 Photoshop 的 generative fill,或者是改进现有功能,比如各种客服机器人的解决方案。创业公司则把大厂做得不好的某些垂直场景剥离出来进行优化,比如 Answer.AI 等。也会涌现出之前没有的场景,比如文字生成图片、音乐等。

即便是理解成平台迁移,目前也仍处于早期阶段。AI 产品的渗透率还不高,最流行的 ChatGPT 手机端的日活大概在一千万,这个数字与全球每天使用手机的四亿人比起来还非常小,而主流的社交或短视频产品的渗透率可能都超过 50%,想象中的 App Store 那样的繁荣生态也尚未出现。

人们还在努力改造这项新技术,发明新工具,使得它能够适应我们现在的工作和生活方式。未来随着新工具的广泛使用,我们的生活和工作方式就会去适应工具,被工具塑造。

软件形态革命

比尔盖茨说他一生中只见过两次具有革命性的技术演示,一次是图形用户界面(GUI),一次是 ChatGPT. 这不禁让人觉得 AI 带来的变革也许不仅仅是平台迁移。

In my lifetime, I’ve seen two demonstrations of technology that struck me as revolutionary… the GUI and ChatGPT.
— Bill Gates

从人机交互角度看,早期人们使用命令行的方式与计算机交互,后来演变成使用图形用户界面与电脑和智能手机交互,这大大扩展了软件的使用范围。通过图形界面,人们可以更直观得了解手机可以做的事,并且通过点击界面上的各种元素完成任务。当然,任何一个任务的完成都需要有人编写相应的软件作为支撑,比如银行、外卖、打车、订酒店等。

大模型的通用能力增强,是否意味着 AI 能自动化大多数任务,我们只要动动嘴,电脑就能搞定一切?

谁更有可能实现这一图景?操作系统厂商。

微软的 Copilot Runtime 已经具备了这个雏形。尽管现在还不是,但不难想象它具备这种潜力——开发者基于 OS 提供的 AI SDK 开发功能(以 agent 的形式),OS 负责提供跟用户交互的通用界面,并且这种界面是对话式的。

Microsoft Agent

这种思考框架下第一个问题就是,agent 真的能做到如此智能以至于能够自动化日常生活中很复杂的任务吗?

更大的问题是可发现性。如果只是给用户一个通用的界面,用户知道可以用它来做什么吗?

当然,这种担心也许是习惯了现有产品形态的人的惯性思维罢了。如果它什么都能做,那可发现性就不再是问题了。

通往 AGI 之路

所有想法里最引人遐想的就是生成式 AI 最终能带给世界 AGI。

可 AGI 是什么,我们如何定义 AGI?

We believe our research will eventually lead to artificial general intelligence, a system that can solve human-level problems.
— OpenAI

什么是“可以解决人类级别的问题”的系统呢?在各种为人类设计的考试中取得优异的成绩算不算?

GPT-4 scores

Sam Altman 在最近的一次访谈里提到他想法的转变——他认为 AGI 的实现不会是一个转折点,而是一个持续的过程。

也就是说,其实我们没办法判断人工智能是否到达了 AGI。

AGI 并不是一个技术,而是一个概念,它用来指代一切我们尚未实现的东西。

相信现在多数人都认为 LLM 还没有人类意义上的“理解”能力。随着参数规模扩大,是否有一天它能够具备这种能力呢?有的人认为可能,有的人认为肯定不可能,还有的人认为根本不重要,只要它表现得足够有理解能力就可以了。

这种思考框架最大的问题不是打造 AGI 过于困难,而是没有明确的目标,我们不确定想要打造的东西究竟是什么。所以最终就变成你怎么对待风险的问题——这也是以 Ilya 为代表的“希望慢下来”一派和以 Altman 为代表的“继续加速”一派出现争执的根源。


这篇文章非但没有答案,反而提出了更多问题🤦‍♂️

但我想当下许多关于 AI 的问题的答案只能是“我们还不知道,再观察一下看看”。

保持耐心,继续学习,继续提问。

UGC 可以用来训练 AI 吗

为了提升大模型能力,互联网上的公开数据能用的都已经用于训练了。新数据哪里来?大厂盯上了私有数据。

媒体类的容易理解,比如报刊、杂志、电视节目等,版权属于媒体公司,只要达成协议,支付费用,拿来训练是没问题的。

社交媒体上用户生成的数据(UGC)呢?这个版权属于谁?平台能不能把这些数据卖给第三方用于大模型训练?按理说,这些条款要写在用户协议和隐私政策里。问题是,现在流行的社交媒体平台都是在大模型出现之前产生的,那个时候的条款里可不会包含这样的用途。这就有很大的模糊地带了。

最近接连发生几个事,都和这个相关,挺值得思考一下的。

Stack Overflow

Stack Overflow 是程序员的问答天堂,很多程序员入门、进阶都是从这个网站开始的,甚至有程序员戏称自己的工作就是每天去 Stack Overflow 上拷贝代码。今年5月,OpenAI 和 Stack Overflow 达成了一项协议,将使用该网站的内容来改进其 AI 模型,同时也会在 ChatGPT 中引用这些内容。

许多用户认为这一合作是对他们劳动成果的盗窃,而且他们无法选择退出。一些用户试图删除或修改他们在 Stack Overflow 上的回答,以表达对这一合作的不满 🤦‍♂️ Stack Overflow 则采取了包括封号在内的措施来阻止这些用户。

Stack Overflow News

Slack

相比 Stack Overflow,Slack 要使用用户的消息训练 AI 更让用户感到害怕。要知道 Slack 里可都是公司内部聊天信息,很多都是保密的。用户尤其不满的是,想选择退出还要给 Slack 发邮件申请,并且隐私政策中含糊其辞。在 Hacker News 上的一篇热门帖子之后,这个问题引起了关注。Slack 澄清说,虽然它将客户数据用于某些功能,但它不会使用这些数据来训练其单独收费的“Slack AI”产品 🤷‍♂️

Hacker News

Reddit

Reddit 的故事则是另一个角度。今年3月,Reddit 与 Google 达成协议,允许 Google 使用自己网站数据训练 AI,年费 6000万美金。5月,又与 OpenAI 达成类似协议。此新闻一出,Reddit 股价上涨 14%。


不得不承认,当一个用户在平台上辛苦创作的内容被平台转手卖给第三方时,用户情感上会有一种被出卖的感觉。但这里的根本问题不是隐私(当然像 Slack 那种企业内部信息确实是隐私),而是利益分配。也就是说,用户创造的内容以一种直观的方式给平台带来了经济利益,但是用户没有分享到这部分利益。

理论上,平台可以设置某种与用户的分成机制,比如根据内容获赞的数量给予奖励,但实际操作中可能比较困难,内容难溯源,价值难评估。还可以考虑设置专项基金奖励创作者。或者利用区块链来标识用户内容,让创作者赚取 token 等等。

我们一直说数据有价值,在广告模式下,用户很难直观感受到有多大价值。现在这样明码标价直接出售,给用户造成了很大冲击。因此,社交媒体如果考虑把平台上的 UGC 出售给 AI 公司作为训练数据的话,最好想一想怎么与用户(尤其是创作者)分配利益,否则可能面临像 Stack Overflow 用户那样的极度不满。

量子物理如何让我更自洽

Helgoland cover

最近读了一本科普读物《量子物理如何改变世界》,这本书在豆瓣2023年度科学·新知图书榜单排名第三,作者是意大利理论物理学家卡洛·罗韦利。

这本书篇幅短小,只有200多页,前一半主要讲量子理论的发展和核心思想,后一半讲我们应该以何种方式去思考和理解量子理论。因为量子理论和我们的日常生活经验相差悬殊,作者引用了多种哲学观点来阐释其正确打开方式,这让本书的后半部分具有强烈的哲学意味。

事实上,作者的核心观点之一就是量子理论可以统一物质世界与精神世界 —— 它们本质上都是不同实体间的相互关系。现实只不过是一张由事件编织出来的互动关系网。

我发现这样的思维方式可以印证很多宏观层面的观点。

举几个例子。

一、没有绝对的、普适的观点。年纪越大,见过的人越多,就越能理解这句话。任何观点上的差异都是视角不同罢了。理解他人和世界建立联系的方式,能帮我们拼凑出更为全面的现实图景。

二、过去不决定未来,世界是概率性的。做产品的时候,我们常常有那种“顿悟”瞬间,以为自己抓住了某种因果规律,锁定了系统中的确定性,但把这个确定性推而广之时又发现行不通。世界上没有确定的存在。

三、认知只是一种映照,“我”是什么,直接影响了我的认知是什么。不同人读同一段文字的感受不同,看同一轮明月的情绪各异。“我”的概念,也是由关系所定义的。我们对现实的看法也是现实的一部分。

四、学习的最好方式是边干边学,通过与具体问题的互动去理解它,解决它。这个过程中所出现的事实会帮我们调节脑内的概念结构,让知识、能力真正内化。

“量子力学理论是迄今为止唯一一个未曾犯过错误,且在其应用范围方面尚未发现局限的认知世界的基本理论。”

也许物质微粒、量子风暴离我们的生活过于遥远,但是了解世界的构成方式,以及怎么去思考和看待它,却能对我们的生活和学习产生重要影响。

当然,这样的观点本身,也仅仅是“我”与这本书之间的相互关系。

Apple Ads

为了展现新 iPad Pro 的强大,Apple 发布了一个令人极度不适的广告片 Crush!

碾碎所有代表人类创意的美好事物换来一台 iPad 这样一个事实,明白无误地提醒了我们,在追求数字化、高科技的路上,我们失去了多少美好。

有网友说 “iPad crushes the soul of humanity”,振聋发聩。

几个月前,一支宣传 Apple “碳中和”成绩的广告片 Mother Nature 也让人觉得非常诡异。

所以你不禁会想,Apple 这是怎么了,这种变化是从什么时候开始的,当这个三万亿美金巨头跌倒的那天,这些诡异的广告是否会被当作一种前兆。

在 Macbook 上运行 Phi-3

Phi-3-mini 是微软发布的一个小语言模型,有38亿参数,主打一个体积小,能在端侧流畅运行,并且效果不错。

今天试着在自己的 Macbook 上跑了一下。

主要用到了一个开源的工具 Ollama,这个工具把在本地运行模型的流程做到了“傻瓜式”。除了 Phi-3 外,它还支持许多主流开源模型,包括 Llama 3, Mistral, Gemma 等。

Ollama website

从官网下载 Ollama 安装包后一路点下一步进行安装。

之后打开终端,运行一个命令 ollama run phi3 系统就会自动下载 Phi-3 并安装。这个模型体积只有2.3GB,比我预想的小很多。

安装完成后,终端里会出现一个交互界面,在这里就可以直接开聊了。

Install complete

用起来第一感觉是速度非常快。对简单问题的回答也比较令人满意。

Q&A in terminal

终端里给出答案无法格式化 markdown 的内容,这可以通过给它套一层 Web UI 来解决。

开源社区也有解决方案,比如 Open WebUI 就可以与 Ollama 无缝集成。根据 Github 上的说明安装好之后(需要预先安装 Docker,之后也是执行一条命令),就可以通过浏览器访问运行在本地的 Web 聊天界面了。

Open WebUI screen

整体操作下来,感觉现在围绕大模型应用的工具链真的很成熟了,对新手很友好。而且在本地跑模型和直接调用 API 时的感受很不一样,看到它吐出答案的那一刻,很难想象 LLM 这样强大的技术竟然可以在自己的笔记本电脑上运行起来。

AI Pin & Rabbit R1

Rabbit R1

Rabbit R1. 售价 $199。据报道已经收到10万个预订单。

AI Pin

AI Pin. 售价 $699/$799。暂无销售数据。

两个产品都计划于今年三四月份发布。

感觉AI技术还没有达到产品 demo 里演示的成熟程度,因此很好奇这两个设备到底会惊艳用户,还是只是骗人的。

——

四月,AI Pin 发货,遭到了第一批用户的猛烈吐槽,在操作、性能和体验等方面均未达到人们的预期。

五月,有消息传出 Humane 在寻求出售。

以目前 AI 技术的能力来看,这些设备能覆盖的场景和提供的体验都远远无法取代智能手机。因此,人们没有理由在手机之外还要携带一个新的智能设备。

也许,耳机和眼镜还有可能。

AI 取代了什么

包括 Sam Altman 在内的许多人对 AI 的评价是:现在 AI 只能取代任务(task),还不能取代工作(job)。

我认同这个观点,还可以从这个观点得到几个推论:

  • 工作里除了任务还有其他活动
  • 如果一个人只会做任务,那他大概率会被 AI 替代
  • 学会区分任务和工作是很重要的
  • 如果把完成任务看作时间轴上的一个个块,是不是填满块间空隙的东西才使得工作成为工作?那些填满空隙的东西是「思考」吗?

Books 2023

罗列一下2023年读的书,觉得很好的做了标记。

Form & LLM

前段时间看到 luke 说自己做了一个演讲,题目是 How AI ate my website,想听听看,但一直没找到视频。

过了几天,看到了 OpenAI DevDay 的视频,看 Sam 三下两下把自己写过的文章喂给 ChatGPT,创建了一个创业导师机器人。突然想到 luke 应该也是做了类似的事吧。只不过他是在 DevDay 之前做的,那时候还没有这些新工具。

进而想到 luke 当年因为写了表单设计相关的书出名,以后要是都变成聊天式 UI,就没有表单什么事了吧。

充满了模糊性的 LLM 竟然能很好的理解人类用模糊的语言描述的需求,让我们终于有希望摆脱各种繁琐的在线表单,这一点挺神奇。

AI 的未来:个性化通用智能

我在上一篇文章《AI 带来的机会》里的观点是,更多的机会在 AI 应用上,我们应该着眼于应用领域的颠覆式创新。

行业内普遍的预测也类似:基础模型厂商会收敛到三家左右,更多机会(尤其是新公司的机会)在应用层,未来会有越来越多的 AI 原生应用出现。

什么才是 AI 原生应用呢?为什么没看到市场上出现很多所谓的 AI 原生应用呢?为什么行业看上去日新月异,但新公司在 AI 应用领域找到机会这么难呢?

AI 在应用中的角色

仅仅把 ChatGPT 看作一个技术创新是不合适的,它本身就是应用层面的颠覆式创新,它把大语言模型的能力进行了恰当的包装,占领了一个新兴市场。而 OpenAI 同时掌握着开发者平台,基于它的接口开发出来的类 ChatGPT 产品,总避免不了给人留下「套壳 OpenAI」 的印象,无法与 ChatGPT 竞争。

生成式 AI 技术催生的产品竞争还停留在功能阶段。如果我们认可「功能决定形式」,那么追求在交互或者设计上进行差异化就是伪命题。一来受到功能制约,也做不出来很不一样的交互方式,二来用户在选择这类产品时,还是以功能为主。等 AI 技术比现在「普惠」很多时,用户关注的重点才会从功能转移到可靠性、便利性和价格上。

既然 AI 原生应用还没有明确的定义,也许可以通过一个产品里的「AI成分占比」来大致判断它是不是接近 AI 原生。

Assistant API

OpenAI DevDay 给了一个旅行助手的例子,演讲者通过自然语言给出指令,AI 判断该做什么,然后通过调用函数、写代码计算去完成用户的指令,最后通过用户熟悉的图形用户界面给出反馈,比如标记地图等。这个体验很好的桥接了聊天式 UI、AI 和传统 UI,打开了很多关于 AI 原生应用的想象。

但这样的产品是以 OpenAI 刚发布的新模型作为支撑的,新公司很难做出这样的产品。模型能力和产品能力,可以说是一体两面。

行业模型的发展

有一种说法是,在基础模型之上,会有一些厂商来训练行业大模型,帮助企业更好地完成任务。我对此持怀疑态度。对于定制化模型的需求可能是阶段性的,甚至是伪需求。随着基础模型能力不断增强,训练行业大模型的边际收益会逐渐降低,直到低于成本。或者说,未来的基础模型能力会如此之强,以至于只需要一点点改造就能满足不同行业的需求。

我觉得 AI 技术实施可能是一个颇有前景的行业,就像当年 ERP 支撑了很多技术实施公司一样。不过这个市场目前还不成熟,还有很多因素阻碍企业引入 AI 技术,例如大模型的商业价值不够清晰、企业本身数字化基础不完善、对信息安全的担忧等。

data

OpenAI DevDay 给了一个数据,92% 的世界五百强企业已经在利用 OpenAI 的平台开发产品了。如果我们把这些大公司的行为看作 leading indicator, 那就有理由相信,引入 AI 技术将会成为企业数字化转型后的又一个浪潮。

隐私问题

在个人层面和企业层面都有对隐私的担忧。如果要支持个性化,就要把隐私数据分享给AI,这安全吗?

其实现实生活中已经有很多这样“暴露隐私”的关系了,比如秘书、家庭保姆、月嫂、私教、律师、投资顾问等,如果能放心的把隐私数据交给他们,那交给 AI 又有什么不放心的呢。

因此在谈论隐私时,一定要具体一点。比如,上班时每天的日程安排算不算隐私,靠秘书来安排会议,做会议记录,算不算暴露隐私。我们个人的健康数据算不算隐私,透露给医生算不算暴露隐私。我们对秘书和医生的信任从何而来,我们有没有可能与 AI 也建立起那种信任。

隐私安全问题的背后,是对掌握如此强大技术的机构的怀疑。在 Bloomberg 对 Sam Altman 的一个访谈中,也提到了信任问题。Sam 说 OpenAI 的一个重大课题就是怎么把这项技术的发展和使用「民主化」到全世界的人,例如对齐数据该如何选取等。他觉得重要的是看 OpenAI(或者其他组织)在这方面有什么行动,而不是仅仅依靠「信任」二字。

个性化与技术容器

GPTs / bots 是一种推动技术应用的方式,通过更具体的 bot,降低人们认识和使用 AI 技术的门槛,让一个人可以驱使不同 bot 完成不同的任务。但如果每个人都有专属的通用 bot 岂不是更好?

AI 技术目前仍栖身于电脑、手机、汽车、音箱、电视这些智能设备中,如果有更适合它的容器,岂不是更方便?

Ai Pin

Humane 就是这样一家试图打造 AI 驱动的下一代智能设备的公司,他们的第一款产品 Ai Pin 也即将发布。我很赞同企业创始人的一个观点 — 我们的未来一定不是更多屏幕,而是让技术“消失”。

让我们拭目以待。

(完)

参考资料

AI 带来的机会

AI 的第一波热潮已经过去,大模型的主要玩家逐渐浮现,技术方向也更加明确:多模态、人机对齐、降低训练成本、提高可解释性等。这些工作将逐渐集中到少数大模型公司和开源社区。

投资方面,仍然会涌入硬件、基础设施、基础模型能力,以推动技术进步。然而,这些投资的前提是 AI 应用必须能够创造巨大的经济价值,以实现合理的回报。因此,大多数公司将把注意力集中到应用场景上,逐渐从技术驱动创新转向产品驱动。

成熟企业可以将大模型和 AI 能力视为「延续性创新」的工具,利用这些技术来改进自己在现有市场中的表现,以更低的成本提供更好的用户体验和价值。

例如,为全球用户提供语言学习服务的 Duolingo 上线了两个基于 GPT-4 的新功能 Roleplay 和 Explain My Answer。依靠这样的创新,Duolingo 有望进一步提升收入。

再比如,软件企业 Intercom 在今年年初推出了基于大模型技术的智能客服机器人产品 Fin,允许客户将私有数据和知识导入系统,进一步强化自己的产品价值。 尽管引入了 AI 技术,这两家企业的核心客户价值没有改变,所处的价值网络也没有发生变化,是典型的「延续性创新」。

除此之外,改进现有产品的交互方式,让用户能够通过自然语言界面完成事务性任务,对于许多软件,尤其是复杂的企业软件来说,可以有效提升功能的使用率和用户体验。例如,很多人会有在 Excel 里将“值小于 0 的 cell 高亮标记“ 这样的需求,但是知道怎么操作的人不多。有了自然语言界面后,能顺利使用这类功能的用户就变多了。

交互可以从对话开始,却不一定非要以对话结束。通过合理的设计,让用户能够享受自然语言输入指令的便捷,同时产品也能以最合适的形式回应用户,是产品创新的关键。

对于新兴企业,试图借助简单地套壳 OpenAI 来颠覆成熟企业和行业是不现实的。相反,它们应该更关注「颠覆性创新」,通过把相对成熟的技术包装起来,不断试错和迭代,找到合适的产品形态、愿为之付费的客户和可以盈利的商业模式。这些新产品需要在市场中找到立足之地,与成熟产品在不同维度上竞争。

举例来说,Midjourney 以强大且极具风格化的「文生图」能力吸引了一千四百万用户,创造出约3亿美元的年收入,展示了颠覆性创新的潜力。同样,Character.ai 允许用户定制聊天机器人,吸引了400万月活跃用户,估值高达10亿美金。尽管这些新兴企业的商业前景仍需观察,但这种由产品驱动的创新将会越来越多。

在专业领域,如财务、健康、法律等,大语言模型结合自然语言界面也具有巨大潜力。一方面它能提高专业人士的服务质量和效率;另一方面也可以让用户以自助的方式获得所需信息。例如,房贷怎么还更合理、遗产继承顺序是什么样的、二手车如何过户等问题,直接问系统就可以了。

更抽象的看,用户获取信息的方式会从搜索过渡到下一个阶段。我相信未来会出现整合所有多媒体信息的超级数据库,一个超级大脑,人们可以随时随地用自然语言查询任何信息。Perplexity 在这方面做了许多工作,这也是我们自己的项目 Grape Search 的愿景。

在消费互联网之外,也有许多行业亟待 AI 赋能,例如物流、制造、自动驾驶、医疗等。这些行业的用户规模没有消费互联网大,企业往往不愿投资自建专业的 AI 团队。随着大模型的能力使得开发专属 AI 模型的成本降低,组建公司来支持 AI 技术在特定行业的落地也在商业上变得可行。


注:延续性创新、颠覆性创新、成熟企业、新兴企业的定义可参考《创新者的窘境》一书。

参考资料:

  1. AI-powered UI.
  2. Opportunities in AI by Andrew Ng.
  3. Product-led AI by Seth Rosenberg.
  4. Midjourney statistics.

会话式 UI

利用 GUI 完成某些任务时常常需要多次点击,既不容易学,也不容易记。如果用户可以用语言控制软件,那么更多的功能就可以被更多的用户所使用。

系统给用户的反馈不一定是会话式的,一个聊天气泡所具有的展示能力远不如一个表格或图表强大,因此在用户侧我们更看重“命令输入的简便性”,在系统侧更看重“以何种形式给用户回馈最为高效和直观”。

类似“合理的信息架构”这样对于可用性很重要的课题,在会话式 UI 的前提下就没那么重要了。而 Make the easy things easy, and the hard things possible 这样的指导原则也变得不重要,因为我们现在可以让所有事情都变得 easy。

软件用户界面将从一个“精心设计的建筑物”变成“哆啦A梦的口袋” — 只需许下愿望,系统就将所愿之物呈现于眼前

语言的破坏力

瓦依那在乐夏第三季表演完《大梦》之后,收获了观众热烈的掌声和感动的泪水。

十八说了一段关于“语言的破坏力”的话,颇有哲学意味。

我觉得语言它具有破坏的能力,就是你一旦一个东西一说出口,它就破坏了。
比如说我说我要沉默,我一说出口沉默就没了。
我说我要享受当下,然后我一说出来我享受当下,当下就溜走了。
我觉得语言真的是…… 留给歌词吧。

再谈 ChatGPT

距离上一篇文章《ChatGPT意味着什么》仅过去了三个月,大模型和AI领域的迅速变化已令人应接不暇,有些趋势日渐清晰了。

大模型之争

GPT-4 有了更强大的推理能力和数据处理能力,并支持插件系统,初现生态端倪。

Anthropic 发布 Claude, 将 context window 提升到 10k token.

Google 发布 PaLM 2 和 Bard 升级,集成 Google Suite。

微软的 Microsoft 365 Copilot 将大模型带进企业办公场景,Windows Copilot 将大模型带进主流电脑操作系统。ChatGPT iOS app 将大模型带进智能手机。

5月23日召开的微软 Build 大会中反复提到的两个概念是 copilotplugin。这两个概念下面我们再详细展开。

大模型厂商同时打造 2C 的聊天产品是一个必然,一来需要展示自己大模型的能力,必须亲自掌控用户和产品的交互;二来需要收集用户反馈以改善自己的大模型;三来可以获取用户流量,2C产品的用户基数越广泛,将来自己的大模型胜出的几率就越高。

大模型厂商的格局大致如下:

language models

微软没有自己的大模型,它凭借是 OpenAI 的股东,充分利用了 GPT-4 的能力。

Meta 没有 C 端产品,其开源的大模型 LLaMA 更多是被开发者用作 GPT-4 / ChatGPT 的平替。

国内的百度、阿里以及一些创业团队也先后推出了大模型,但是其可用性和性能方面的公开数据还比较少。

交互范式

这波浪潮带来了一个宏观和一个微观的交互范式革新。

Copilot 这个概念是宏观层面的交互范式革新。它本质上是一个记忆力好、聪明、执行力强的「助理」,在数字世界里几乎无所不能。但是,「有事找助理」这种思维方式对大多数人来说都是新的。

举个例子,Windows 操作系统功能强大且复杂,很多用户仅能用到约20%的功能。在没有「助理」之前,用户要想实现目标,必须首先知道「这是可以实现的」,接着上网搜索或在论坛提问,学习「如何实现」,最后亲手操作诸多菜单和按钮来实现。有了「助理」之后,用户只需要提出自己的目标,而且是用自然语言的形式,「助理」就知道行不行、如何做,甚至直接替用户完成操作。

可想而知,Copilot 在许多场景下都能极大提高生产效率,但是这种宏观交互范式的改变需要时间去适应。聊天式交互在操作系统层面的集成,对培养「有事找助理」的思维方式将有很大的促进作用。

聊天式交互则是微观层面的交互范式革新。聊天式交互在大模型出现前就存在了,但是应用并不广泛,最大的制约因素在于「机器人不够聪明」,它们很多时候不能理解人类意图。大模型的出现改变了这一点。大模型非常聪明,能满足甚至超出人类的预期。它的特长是理解自然语言和回复自然语言,这使得大语言模型和聊天式交互几乎是强绑定的。

向聊天式交互的转变会更容易一些。人类对聊天式交互早已习以为常,每天都在和朋友、亲人通过 IM 聊天,跟一个 copilot 聊天也没什么不同。尽管目前有很多写 prompt 的技巧可以对大模型进行「调教」,但我相信随着大模型的成长,会不会写 prompt 对结果的影响不大。

双向集成

制约「助理」能力的诸多因素中,以下两个最为重要: 大模型使用静态数据训练,无法访问实时信息 能做的事局限在「知识领域」和「数字世界」,无法直接和物理世界产生联系

插件 (plugin) 这个概念就是用来增强「助理」能力的。各行各业的软件和互联网企业通过开发插件把自己的服务和「助理」相连,让用户可以通过「助理」来使用服务。这些服务有的擅长访问实时信息(如搜索引擎),有的擅长计算(如 wolfram alpha ),有的擅长和物理世界发生联系(比如电商、出行、旅行等服务),是对大模型能力的完美补充。

大模型厂商通过不断推广自己的 C 端产品,让更多的服务提供商注意到这个新的用户聚集地,并将自己的服务能力「嫁接」给大模型。这与 iOS 和 Android 打造开发者生态的逻辑相同。目前看来这个逻辑很成功,ChatGPT 上线不到一周就吸引了一百万活跃用户,此后也保持了高速增长。而更多的用户也吸引了更多开发者和更多研发投入。

cycle

这是从大模型厂商视角来思考的,我们姑且把这种集成模式称作「正向集成」,它解决的问题是「如何让更多的能力为大模型所用」。

用户都在向 ChatGPT 聚集,把自己的服务「嫁接」过去似乎势在必行,就像当年从 web 转向 mobile,后来又出现小程序一样,用户在哪里,店就开到哪里。用户的聚集行为,不仅仅是存量用户的迁移(比如搜索用户转到 ChatGPT 来),也会带来一些增量,比如原来对科技不怎么熟悉的用户也会学着通过聊天式交互去使用数字服务。

从开发者角度看,还可以进行「反向集成」,尝试「让大模型的能力为“我”所用」。这里的“我”可以是初创团队,也可以是已经具备行业地位的企业。例如,我是携程,当用户越来越习惯聊天式交互后,我要不要在自己的平台上提供「聊天订机票」的服务?想要提供,就要将大模型的能力集成到系统里。

但反向集成的必要性存在一定挑战 — 在现有产品中集成聊天式交互不一定能成为企业的竞争优势,反而可能造成「点按式交互」和「聊天式交互」的左右互搏,让用户迷惑。

user confusion

从 OpenAI 网站上看到的大部分成功案例,其企业原本就是提供内容类服务的,甚至交互形式就是聊天式的(比如教育类产品),因此 AI 可以有效提高内容生产效率和智能化程度。而非知识型的产品或服务,尤其是和物理世界联系紧密的,比如出行、电商、零售、地产、银行等行业则暂时没有很好的集成案例。

办公应用

已经被验证了的一类「反向集成」场景是办公应用。

大模型的能力加上企业自身的数据,可以形成企业内部的「超级大脑」和「生产效率神器」— Microsoft 365 Copilot 和 Google Bard + Suite 就是很好的例证。而 Windows Copilot 的出现则更进一步,为个人用户定制了属于自己的「超级大脑」和「生产效率神器」。

无论对个人还是企业来说,这类场景的价值显而易见,但亟待解决的问题是如何保护企业或个人隐私。

虽然微软声称不会使用企业内部数据来训练大模型,但是这种怀疑目前还无法彻底消除。5月,苹果公司因担忧数据泄露,禁止员工使用 ChatGPT 和 Github Copilot 等外部 AI 工具,稍早之前三星、JP摩根、Verzion、Amazon 等公司也采取了类似举措。

结语

大模型技术进步神速,对它的应用还远没有发展的那么快。虽然早有「各行各业都要重做一遍」的说法,但目前行业内并没有掀起这样的热潮。如何利用大模型创造价值,大家都在深入思考和探索。

此外,大模型和AI技术还面临着监管缺失。2023年5月16日,OpenAI 的 CEO Sam Altman 出席美国国会的听证会,接受立法者的质询。Sam 呼吁政府立法加强监管、实施许可证制度、制定安全标准并由第三方专家独立审核 AI 产品的各方面指标。如何设立规则和边界,让这项技术朝着更有利于人类进步的方向发展,政府也在努力思考和探索。

Last but not least, 期待中国的大模型早日赶上。