议报:中国审查制度的AI关键时刻

作者:Stephen S. Roach       转载自:Project Syndicate 议报

来源:Project Syndicate
作者:Stephen S. Roach
译者:撒母耳

多年来,中国一直认为,凭借其丰富的数据和有限的隐私保护,它将在全球人工智能竞赛中具有结构性优势。但现在,该领域正在接受得益于思想自由流动的大型语言模型,中国的领导层面临着一种两难境地。

(纽黑文)在李开复2018年的经典著作《人工智能超级大国》(AI Superpowers)中,他掷地有声地指出,中国对美国构成越来越大的技术威胁。2019年底,当李开复在耶鲁大学我的“下一个中国”(Next China)课上做客讲演时,我的学生们被他挑衅性的案例所吸引:美国即将失去其在发现方面(人工智能算法的专业知识)的先发优势,而被中国的实施优势(大数据驱动的应用)所取代。

唉,李开复忽略了一个关键的发展:大型语言模型和生成性人工智能的崛起。虽然他确实暗示了一种更一般的通用技术形式,他将其追溯到工业革命,但他并没有延伸捕捉到现在已经吞噬了人工智能辩论的ChatGPT狂潮。李的观点,虽然模糊地提到了 “深度学习”和神经网络,但其更多地取决于AI取代人类执行任务的潜力,而不是接近人类思维的 “人工通用智能 “(artificial general intelligence)的可能性。当我们讨论中国作为一个AI超级大国的未来时,这几乎是一个微不足道的考虑。

这是因为中国的审查制度给这个未来设置了一个很大的 “如果”(不确定性——译者注)。在最近的一篇文章中,亨利·基辛格(Henry Kissinger)、埃里克·施密特(Eric Schmidt)和丹尼尔·哈滕洛彻(Daniel Huttenlocher)——他们在2021年的书中暗示了通用人工智能的潜力——有力地证明了我们现在正处在一场由ChatGPT促成的智力革命的前沿。他们不仅解决了大型语言生成模型所带来的道德和哲学挑战;还提出了关于实施的重要实践问题,这些问题直接影响到正在处理的语言中所包含的知识体的规模。

正是在这里,中国严格的审查制度敲响了警报。虽然东方和西方都有悠久而丰富的审查历史,但中国共产党的宣传部门在努力控制中国社会各个方面的表达——报纸、电影、文学、媒体和教育——以及引导形成公共辩论的文化和价值观方面,非常突出。

与网络上什么都可以有的西方不同,中国的审查员为符合中国共产党要求的信息传播,坚持严格的政治指导。中国网民无法查阅有关十年文化大革命、1989年6月的天安门惨案、西藏和新疆的人权问题、与台湾的摩擦、2019年的香港民主示威、对清零政策的反对,以及其他许多内容。

这种控制性的信息剪辑是具有中国特色的ChatGPT的一个主要陷阱。通过抹去重要事件和与之相关的人类经历的历史信息,中国的审查制度已经缩小并扭曲了将被用于通过机器学习训练大型语言模型的信息体。随之,中国从人工智能知识革命中获益的能力将因此受到影响。

当然,要精确地量化审查制度的影响是不可能的。自由之家(Freedom House)的年度网络自由度调查提供了一个定性评估。2022年,在70个国家的抽样调查中,它给予中国最低的整体 “互联网自由度 “分数。

这个指标来自于对21个问题(以及近100个子问题)的回答,这些问题被分为三大类:访问障碍、侵犯用户权利和对内容的限制。内容子类别——反映了对网站的过滤和封锁,对内容的法律限制,在线信息领域的活力和多样性,以及使用数字工具进行公民动员——最能够衡量审查制度对可搜索信息规模的影响。中国在这方面的得分是总分35分中的2分,而平均得分是20分。

展望未来,我们可以预期更多相同的情况。中共政府已经迅速发布了关于聊天机器人的新规则草案。4月11日,“国家互联网信息办公室”(CAC)下令,生成性人工智能内容必须 “体现社会主义核心价值观,不得包含任何颠覆国家政权、鼓吹推翻社会主义制度、煽动分裂国家或破坏民族团结的内容”。

这突出了先前存在的审查制度和对人工智能监督的新努力之间的重要区别。前者使用关键词过滤来阻止不可接受的信息,而后者(正如最近“数字中国”[DigiChina]论坛所指出的)则依靠打地鼠(Whac-a-Mole)的方法,来控制这类信息的快速变化的生成处理。这意味着,中国的“网信办”越是努力控制ChatGPT的内容,由聊天机器人生成的中国智能的出产量就越小——这是对中国AI智力革命的另一个制约因素。

不出所料,中国的生成性人工智能努力的早期回报令人失望。百度的“文心一言”,即 “Ernie Bot”——中国最著名的大型语言模型先行者——最近被《连线》(Wired)杂志批评为试图在 “由政府审查制度统治的防火墙网络 “中运作。中国其他AI语言处理模型也有类似的令人失望的结果,包括Robot、Lily和阿里巴巴的“通义千问”(大致翻译为 “千问真相”)。

此外,由一大批受人尊敬的西方记者建立和维护的 “互联网信任工具”NewsGuard,最近的一项评估发现,OpenAI的ChatGPT-3.5在中文中产生的虚假或 “致幻 “信息远多于英文。

文学学者石静远(Jing Tsu)的杰出著作《汉字王国:使中国现代化的语言革命》(Kingdom of Characters: The Language Revolution that Made China Modern),强调了语言在中国自1900年以来的演变中所发挥的关键作用。归根结底,语言只不过是一种信息媒介,在她的最后一章中,石静远抓住了这一点,认为 “谁控制了信息,谁就控制了世界”。

在人工智能时代,这个结论给中国带来了深刻的问题。信息是大型语言人工智能模型的原始燃料。但是,国家审查制度造成小语言模型,阻碍了中国。这一区别很可能对信息控制和全球权力的争夺产生关键影响。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注