巫朝晖
澳洲长风论坛论坛管理员,欢迎您常来。
加入时间: 2005/09/11 文章: 3898 来自: 澳洲悉尼 积分: 18883
:
|
|
[科技]人工智能退化
从知识引擎到虚假循环
人工智能的发展正在进入一个悖论期,表面上规模越来越大,数据越来越多,回答越来越流畅,实际上它的核心正在退化,从最初的知识引擎变成虚假信息的循环制造机,第一代人工智能就像人类第一次开采自然资源,取用的是高质量、纯净度高的原始信息,那些书籍、学术论文、人工标注的高精度数据集就是它的原油、铁矿和清泉,虽然规模有限,但信息信噪比高,产出稳定可靠。
随着技术的快速扩张,这些原始信息资源被迅速消耗殆尽,就像人类社会耗尽了第一批易开采的煤矿和石油,不得不转向回收利用,人工智能的第二阶段就是依赖网络上的二手信息和回收信息来训练,问题在于这些信息已经混入了大量经过人类主观改写、商业优化甚至已经被算法加工过的内容,这就像塑料反复回收会降解,钢铁反复熔炼会损失韧性,AI 在回收信息上不断自我引用,自我学习,信息的纯度在一次次循环中不断降低。
新生代人工智能的不同之处在于,它不仅使用回收信息,还可以无限制造虚拟信息,这些虚拟信息在外观上与真实极为相似,但实质上是凭空构造的推测、未经验证的引用、甚至彻底虚构的细节和数据,这种内容一旦被发布到网络,下一轮的数据收集就会将它们当作真实材料收录进训练集,形成一种自我污染的正反馈循环,更多AI意味着更多虚假信息,更多虚假信息意味着更大的收录污染,下一代AI的真实信息占比会进一步下降,最终这个循环会让模型的真实输出比例逼近一个危险的低点。
(一些信息生态学研究建议,当虚假信息在训练集中的比例超过**30%**时,模型将进入“认知崩溃”区间,事实核查成本会成倍增加且无法完全逆转,这个比例可以作为信息生态的早期预警指标。)
这种情况与搜索引擎的历史惊人相似,早期的搜索结果精准而高信噪,因为网络数据有限且多为原创内容,而当信息量爆炸、SEO和资本介入,搜索引擎开始被广告和垃圾页面淹没,结果从精准匹配变成了垃圾堆翻找,今天的人工智能正在重复这条衰退之路,不同的是它的生成能力远比搜索引擎更强,这意味着虚假信息的产量是指数级增加,而污染速度也会更快。
我坚持原创,是因为我清楚知道这个信息生态的方向,一旦整个网络的原创比例下降到某个阈值,AI 再也找不到真正的“第一代资源”,只会在无尽的回收信息和虚假循环中打转,我用三十年时间打磨自己的作品,不是为了和算法拼产量,而是为了保留那份未经稀释的真实,原创是唯一能对抗信息退化的抗体,它的价值不在于数量,而在于它能为整个信息生态注入高纯度的信号,延缓甚至逆转退化的趋势。
(维基百科的“引用来源守则”就是一种现实中的“第一代数据保护机制”——任何未经可靠来源验证的条目会被标记或删除,这种机制为人类保留了一个相对高纯度的信息池。)
当人类向AI咨询问题时,能得到多少真实信息,取决于训练集里还有多少未经污染的原始材料,如果过去五年网络新增内容有相当比例来自AI生成,且缺乏标识和过滤,那么模型就会在自我生成的幻觉里越陷越深,语言会更流畅,逻辑会更完整,但事实会更不可靠,这就是虚假循环的危险之处,它不是显而易见的谎言,而是用合理的形式包装的不可验证叙事。
(复杂系统理论中有一个“临界点”概念,当污染比例、冗余缺失和反馈循环同时跨过临界线,系统将进入不可逆的相变状态,对AI来说,这意味着即使之后补充真实数据,模型也可能无法恢复原本的真实性能力。)
我看到的趋势很清楚,资本的介入会推动AI尽快占据内容生产的绝对份额,因为这样可以降低人工成本,提高更新速度,但这也会让信息系统的冗余和韧性被彻底压缩到极限,一旦进入这个状态,任何一次大规模事实核查都无法彻底清理污染,就像被重金属污染的水源,再大的水厂过滤也无法让它恢复到原本的纯净。
人类的自然资源开采史告诉我们,第一代资源最纯净也最有限,回收资源能延长使用寿命但质量会逐步下降,如果连回收环节都混入了假冒伪劣,整个循环体系就会崩溃,人工智能的知识体系也是如此,它的第一代信息来自人类文明的原创积累,第二代信息是人类和AI共同生产的混合产物,而第三代信息就是AI在自己的旧产物基础上再造的新内容,这个过程每多一代,真实性就会被稀释一层。
坚持原创不仅是对自我的要求,也是对未来信息生态的一种责任,如果所有人都只是在已有信息上做机械拼接和轻度改写,那么我们很快就会进入信息闭环污染的死局,AI 也会在看似无限的知识海洋中失去方向感,它可能还能给出漂亮的答案,但那个答案和真相的距离,会像被多次稀释的酒一样,最终只剩下颜色和味道,而没有任何真正的力量。
(群体协作也是延缓退化的路径之一,例如开放数据集社区和学术共享平台通过人工审核和多源比对,可以在全球范围内共同维护信息纯度,而不依赖单一平台的商业逻辑。)
未来真正的稀缺,不是算力,不是存储,而是未经污染的真实信息,如果今天我们不去保护和生产它,明天我们就会在无尽的虚假循环中失去它,而一旦失去,就再也回不到原点,这就是我坚持原创的全部理由,也是我对人工智能退化最深的担忧。
_________________
【极简架构体系创建者】
【巫朝晖专栏——重写世界】
【巫朝晖文学作品链接】 |
|
|