为了提升大模型能力,互联网上的公开数据能用的都已经用于训练了。新数据哪里来?大厂盯上了私有数据。

媒体类的容易理解,比如报刊、杂志、电视节目等,版权属于媒体公司,只要达成协议,支付费用,拿来训练是没问题的。

社交媒体上用户生成的数据(UGC)呢?这个版权属于谁?平台能不能把这些数据卖给第三方用于大模型训练?按理说,这些条款要写在用户协议和隐私政策里。问题是,现在流行的社交媒体平台都是在大模型出现之前产生的,那个时候的条款里可不会包含这样的用途。这就有很大的模糊地带了。

最近接连发生几个事,都和这个相关,挺值得思考一下的。

Stack Overflow

Stack Overflow 是程序员的问答天堂,很多程序员入门、进阶都是从这个网站开始的,甚至有程序员戏称自己的工作就是每天去 Stack Overflow 上拷贝代码。今年5月,OpenAI 和 Stack Overflow 达成了一项协议,将使用该网站的内容来改进其 AI 模型,同时也会在 ChatGPT 中引用这些内容。

许多用户认为这一合作是对他们劳动成果的盗窃,而且他们无法选择退出。一些用户试图删除或修改他们在 Stack Overflow 上的回答,以表达对这一合作的不满 🤦‍♂️ Stack Overflow 则采取了包括封号在内的措施来阻止这些用户。

Stack Overflow News

Slack

相比 Stack Overflow,Slack 要使用用户的消息训练 AI 更让用户感到害怕。要知道 Slack 里可都是公司内部聊天信息,很多都是保密的。用户尤其不满的是,想选择退出还要给 Slack 发邮件申请,并且隐私政策中含糊其辞。在 Hacker News 上的一篇热门帖子之后,这个问题引起了关注。Slack 澄清说,虽然它将客户数据用于某些功能,但它不会使用这些数据来训练其单独收费的“Slack AI”产品 🤷‍♂️

Hacker News

Reddit

Reddit 的故事则是另一个角度。今年3月,Reddit 与 Google 达成协议,允许 Google 使用自己网站数据训练 AI,年费 6000万美金。5月,又与 OpenAI 达成类似协议。此新闻一出,Reddit 股价上涨 14%。


不得不承认,当一个用户在平台上辛苦创作的内容被平台转手卖给第三方时,用户情感上会有一种被出卖的感觉。但这里的根本问题不是隐私(当然像 Slack 那种企业内部信息确实是隐私),而是利益分配。也就是说,用户创造的内容以一种直观的方式给平台带来了经济利益,但是用户没有分享到这部分利益。

理论上,平台可以设置某种与用户的分成机制,比如根据内容获赞的数量给予奖励,但实际操作中可能比较困难,内容难溯源,价值难评估。还可以考虑设置专项基金奖励创作者。或者利用区块链来标识用户内容,让创作者赚取 token 等等。

我们一直说数据有价值,在广告模式下,用户很难直观感受到有多大价值。现在这样明码标价直接出售,给用户造成了很大冲击。因此,社交媒体如果考虑把平台上的 UGC 出售给 AI 公司作为训练数据的话,最好想一想怎么与用户(尤其是创作者)分配利益,否则可能面临像 Stack Overflow 用户那样的极度不满。