正观快评:适度放宽数据要求,让人工智能“吃饱”一点|环球要闻
(相关资料图)
以文心一言、ChatGPT为代表的人工智能生成服务方兴未艾,迅速风靡。一方面,人们为它的便利性和智能性惊叹,另一方面,用户对于生成内容会不会造成隐私泄露,会不会出现不和谐内容的忧虑也与日俱增。近日,网信办发布了《生成式人工智能服务管理办法(征求意见稿)》(简称《征求意见稿》),尝试探讨人工智能生成服务的规范问题。这一规定恰逢其时,对于促进生成式人工智能产业发展具有重要意义。但是,我仍然想说,法律法规对于新兴技术的限制应当把握好“度”,既要对生成内容健康性进行有效引导,也不应让技术本身背太多的“锅”。
例如,《征求意见稿》第七条提到“提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责”“数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形”“保证数据的真实性、准确性、客观性、多样性”。这类规定其实在实操上存在很大的困难。
首先,数据真实性、准确性是否属于个人信息,在不同的场景下很难界定。例如,很多新闻都说“冯德莱恩是欧洲的‘裸官’”,欧盟又出来辟谣,这些新闻孰真孰假呢?一位知名医生的履历被挂在医院网站上,这属于“个人信息”还是“公共信息”呢?如果生成式人工智能连知名医生的信息也获取不到,它的价值会大打折扣。正是因为界定的模糊性,对海量数据的真实性和准确性进行逐一评判和甄别,几乎变成了不可能的任务。
其次,生成式人工智能技术是一种基于数据驱动的技术,它通过学习大量的数据,来模拟数据中的分布和规律,从而生成新的数据。这种技术本身并不具有判断真实性、合法性、有效性的能力,也不依赖于这些标准来优化自身的性能。因此,要求生成式人工智能服务提供者保证其提供的服务内容真实、合法、有效,实际上对技术存在一定的误解。这种要求会给生成式人工智能服务提供者带来巨大的压力和风险,也会抑制生成式人工智能技术的创新和发展。
生成式人工智能的大量训练数据来自于海量的互联网信息,而互联网信息则来自于千千万万互联网用户和古今中外的资料。正是这丰富而多样的数据来源,赋予其强大的智能。客观来讲,在当下的技术发展阶段,需要让生成式人工智能既“吃饱”又“吃好”,才能促进其快速发展和进化。如果因难以甄别而将大量的信息弃之不用,无异于因噎废食。如果过于追求“真实性”“准确性”“规避个人信息”,势必大大缩小模型的数据集数量,导致国内生成式人工智能技术难以有效发展、用户使用体验严重下降,甚至很快被国外的同类平台在技术上远远甩开。
所以,我们应当以长期主义的开放心态来看待生成式人工智能技术。给它以宽容,给它以空间,接受它的不完美。生成式人工智能技术不是一个能够甄别一切假新闻、能够保护所有人隐私的“神”级技术,但是它的有效发展,却能够实实在在地便利工作与生活,提高社会生产力。这么好的技术,我们一定要占领世界制高点。
法律法规对新兴技术的限制从来都是一个“度”的问题,过犹不及。对于新生事物,既要有效引导和管理,也要充分鼓励支持。要让生成式人工智能和互联网信息内容更加真实、健康,通过法律法规给生成式人工智能提供方压力只是治“标”,在全社会践行社会主义核心价值观才是治“本”。
(作者系郑州大学人工智能工程应用实验室主任)