当前位置：快讯 > 正文

正观快评：适度放宽数据要求，让人工智能“吃饱”一点|环球要闻

2023-04-24 09:31:20 正观新闻

(相关资料图)

以文心一言、ChatGPT为代表的人工智能生成服务方兴未艾，迅速风靡。一方面，人们为它的便利性和智能性惊叹，另一方面，用户对于生成内容会不会造成隐私泄露，会不会出现不和谐内容的忧虑也与日俱增。近日，网信办发布了《生成式人工智能服务管理办法（征求意见稿）》（简称《征求意见稿》），尝试探讨人工智能生成服务的规范问题。这一规定恰逢其时，对于促进生成式人工智能产业发展具有重要意义。但是，我仍然想说，法律法规对于新兴技术的限制应当把握好“度”，既要对生成内容健康性进行有效引导，也不应让技术本身背太多的“锅”。

例如，《征求意见稿》第七条提到“提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责”“数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形”“保证数据的真实性、准确性、客观性、多样性”。这类规定其实在实操上存在很大的困难。

首先，数据真实性、准确性是否属于个人信息，在不同的场景下很难界定。例如，很多新闻都说“冯德莱恩是欧洲的‘裸官’”，欧盟又出来辟谣，这些新闻孰真孰假呢？一位知名医生的履历被挂在医院网站上，这属于“个人信息”还是“公共信息”呢？如果生成式人工智能连知名医生的信息也获取不到，它的价值会大打折扣。正是因为界定的模糊性，对海量数据的真实性和准确性进行逐一评判和甄别，几乎变成了不可能的任务。

其次，生成式人工智能技术是一种基于数据驱动的技术，它通过学习大量的数据，来模拟数据中的分布和规律，从而生成新的数据。这种技术本身并不具有判断真实性、合法性、有效性的能力，也不依赖于这些标准来优化自身的性能。因此，要求生成式人工智能服务提供者保证其提供的服务内容真实、合法、有效，实际上对技术存在一定的误解。这种要求会给生成式人工智能服务提供者带来巨大的压力和风险，也会抑制生成式人工智能技术的创新和发展。

生成式人工智能的大量训练数据来自于海量的互联网信息，而互联网信息则来自于千千万万互联网用户和古今中外的资料。正是这丰富而多样的数据来源，赋予其强大的智能。客观来讲，在当下的技术发展阶段，需要让生成式人工智能既“吃饱”又“吃好”，才能促进其快速发展和进化。如果因难以甄别而将大量的信息弃之不用，无异于因噎废食。如果过于追求“真实性”“准确性”“规避个人信息”，势必大大缩小模型的数据集数量，导致国内生成式人工智能技术难以有效发展、用户使用体验严重下降，甚至很快被国外的同类平台在技术上远远甩开。

所以，我们应当以长期主义的开放心态来看待生成式人工智能技术。给它以宽容，给它以空间，接受它的不完美。生成式人工智能技术不是一个能够甄别一切假新闻、能够保护所有人隐私的“神”级技术，但是它的有效发展，却能够实实在在地便利工作与生活，提高社会生产力。这么好的技术，我们一定要占领世界制高点。

法律法规对新兴技术的限制从来都是一个“度”的问题，过犹不及。对于新生事物，既要有效引导和管理，也要充分鼓励支持。要让生成式人工智能和互联网信息内容更加真实、健康，通过法律法规给生成式人工智能提供方压力只是治“标”，在全社会践行社会主义核心价值观才是治“本”。

（作者系郑州大学人工智能工程应用实验室主任）

为你推荐