数据表征:抓紧算法治理的“牛鼻子”

部分常用算法模型的不可解释性长期制约着算法的治理。解决思路有二:从易于解释、可以治理的部分入手,或者不断解耦算法、使之分离成各自皆易于解释、可以治理的若干部分。前一思路对制度的影响更深:无论是域内首创的备案制度,还是域外以欧盟《人工智能法》提案为代表的立法尝试,都秉持了“可以说清之事,说清楚”的原则。后一思路则对技术发展颇有影响——实际上,解耦表征学习本就是方兴未艾的、解释算法的进路之一。

数据表征正赫然处于制度和技术思路的交叉点。一方面,由域外执法趋势可见:表征正日益成为数据和算法间的执法连接点。数据的治理驾轻就熟,算法的治理歧路犹多。通过治理表征,多国执法机构得以将治理工具和能力伸展到错综复杂的深度神经网络内部。另一方面,无论是各类从表征角度出发解耦算法的前沿发展,还是以特征商店为代表的,使得表征标准化、可流通、可治理的产业趋势,都足以担当承载算法治理“过河”的河底石。

从Everalbum等案所见的治理新趋势

Everalbum是一家为用户提供照片上传和存储服务的公司。此外,Everalbum还通过人脸识别算法,为用户提供照片分组管理服务。例如,假使人脸识别发现同一朋友出现在用户的多张照片中,这些照片就自动归入一组。Everalbum声称:只有用户明确同意,才会开启这一服务。Everalbum还声称:一旦注销账户,用户的数据便都会被删除。现实中,两点都不成立:人脸识别实际是默认开启;注销以后,数据也不会完全删除。

美国联邦贸易委员会(以下简称FTC)因此调查Everalbum。双方在2021年5月达成包含多方面整改措施的和解令。比较过往的FTC和解令,大部分措施并不陌生:纠正不实的陈述、删除未经同意收集的数据、删除注销后本应删除的数据、设立长期合规项目、定期提交合规整改报告,等等。与此同时,其中还有一类首次出现的措施:要求删除基于前述数据开发的“工作产品”,包括相应的人脸嵌入和算法模型。前者即属于人脸数据的表征。

截至目前,尽管各国制度对算法的关切皆多,主要法域的实际执法仍少。对算法有深入分析说理,并处以切实处置措施的更少。作为主要法域内主要执法机构的FTC的决定首次纳入数据表征,自然值得瞩目。在报道这份FTC内部一致通过的和解令时,FTC官方也把嵌入这部分内容作为突出的内容。

从更具体的角度看,这份和解令还有三则值得关注的细节。首先,按其官方报道,“与人脸识别技术的使用同时创建的人脸嵌入”属于“个人信息”。这就在美国法下回应了前文的疑难。其次,在致世界隐私论坛的复信中,FTC进一步在技术层面明确道:删除所涵盖的嵌入范围非常广泛,不仅包括“一串数字”形式的表征,也包括以随机分布形式体现的“概率性人脸嵌入”。简言之,FTC已经考虑了技术上形式相对复杂的表征。最后,在同一复信中,FTC还明确道:人脸表征不仅包括基于人脸生成的表征,还包括其他多模态的表征,比如基于视频的表征。综之,FTC执法范围已足以覆盖各类关切算法所依赖的表征。

Everalbum案体现的执法趋势不是孤例。2022年3月,FTC又调查了体重营养管理应用Weight Watchers。因Weight Watchers不当收集儿童个人信息,和解令同样规定了诸多整改措施。其中也再一次出现了删除“工作产品”,包括算法模型的类似要求。FTC主席Lina Khan在个人社交媒体上自豪地称其为儿童个人信息保护领域的“首创”。总而观之,Everalbum当为美国法下算法治理新趋势的起点之一。表征则是其中的突出组成部分。

Clearview AI案同样瞄准数据表征

作为域外趋势共通点的表征,究竟是什么?Clearview AI是一家核心业务完全围绕人脸识别运行的公司。于是,自然也会涉及表征。简言之,Clearview AI先从社交媒体等多类来源爬取数以亿计的照片,然后生成人脸矢量。矢量属于表征的一种。在此基础上,Clearview AI再向各国执法机构提供人脸检索匹配服务:执法机构提供人脸图像,Clearview AI将其矢量化后,准确、迅速地在数十亿张照片中寻得包含同一人的所有照片。这一业务业已行销全球多地。

Clearview AI对作为敏感个人信息的人脸的如此处理行为,既未事先取得同意,也没有提供易用、彻底的删除措施。多国因此开展调查。其中,英国澳大利亚两大主要法域联合展开的调查最具影响力。两国2021年10月联合发布的决定不仅详细解释了何谓矢量(表征),还展示了分析表征法律性质的逻辑。

具言之,决定首先开门见山:本案中,“矢量是对所爬取图片包含信息的数学表征。”之后,决定从两个角度展开矢量的法律性质,阐明为何应当认定为个人信息:其一,无论其他事实如何,本案中表征人脸的矢量,总是对个人生理特征的测度和记录。且相应的生理特征随时间保持稳定、难以更改。其二,这些矢量的处理目的,终究还是从数十亿张照片中“区别”、亦即“识别”出一个人。因此,即使矢量难以为人所理解,单独(不结合特定算法)也无法识别到个人,依然应当认定为个人信息。循此,两地适用于个人信息的各类制度规定,都可以自然地适用于众多类型的表征,进而伸展至依赖相应表征的算法。

Clearview AI案因此具备两方面重要意义。一方面,和Everalbum案一致,这是数据表征开始纳入主要法域治理范围的起点之一。另一方面,两地执法机关分析表征的进路——综合表征内容及其处理目的而判断,也和欧盟等地正在发生的、个人信息保护问题的分析范式转变一致。执法机关不再单纯围绕可识别性纠缠,而是综合考虑信息内容、处理目的甚或处理影响,从而对涉及新兴复杂领域的案件做出妥帖判断。这一转变发生的范围远不止以上三地。

什么是数据表征?

恰如算法领域经典教科书《深度学习》所述:“信息处理任务是难是易,依赖于信息如何表征。无论是对日常生活来说,还是对计算机科学和算法来说,这条一般性的原则都适用。”书中实例亦颇有启发:同样的信息,同样是要做除法,用罗马数字来表征,远没有用阿拉伯数字表征来得方便。由此,表征至少具备三方面要点:一,同样的信息,可以有多种表征;二,不同的表征,会影响信息处理任务的效率;三,由此,对不同的信息和处理任务,需要寻求高效的表征。

这一寻觅路途,大致分两个阶段。不妨以征信风控算法作为简单的示例。风控算法常以多类个体特征作为输入。在第一阶段,算法开发者需要手动筛选、调整,以制得最有用的特征。之后,算法即可学习到不同特征在风险预测中的权重。进入第二阶段以后,基于丰富的个体特征,算法能够同时表征相应特征,并学习特征权重。换句话说,算法很大程度上“接管”了信息表征的设计。

制度层面所关切各类算法的进展,均受惠于这一转变。除前述风控算法外,按Bengio等早已获逾万次征引的经典综述《表征学习:综述和展望》:无论是识别、检测算法(如人脸识别),还是自然语言处理算法(如部分生成合成类算法),都因表征的发展而迎来了“一连串可圈可点的实践的胜利”。之外,域内外均着力治理的推荐算法,也相当依赖于算法自行习得的表征。

表征“可圈可点的胜利”,也带来了相当的挑战。按前言,高效的表征需要与处理任务相适应。适应于后续算法处理的表征,固然能提升征信风控、人脸识别、生成合成和推荐算法的效率,但通常难以为人所理解。实际上,对人而言,表征通常只是一串不知所云的数字。于是,尽管制度上很容易判断人脸是否特殊类别个人信息,并适用相应规定。一旦涉及人脸的表征,是否个人信息,是否应当适用相应规定,就很难判断了。对算法和数据治理而言,这里有个“豁口”。

危中有机,老生常谈。表征虽然难解,作为联通常人能够理解的信息和不可解释的算法间的桥梁,一旦抓住这个“牛鼻子”,治理的工具和能力都能够自然地“过桥”。这正是上述域外新近案例所体现的趋势。

算法解耦、特征商店与表征的可治理化

技术和产业层面,解耦算法和治理表征的努力也是如火如荼。由此导向的表征可治理性,与制度的发展有着清晰的共同指向。

如前所言,新一阶段的算法可以同时表征特征,并学习权重。仅追求算法性能时,这无伤大雅。然而,当算法治理进入“深水区”、解释问题成为“拦路虎”后,这一深度耦合又成了下一阶段需要着力解决的障碍。当前算法解释领域最重要的前沿问题之一,便是将表征从算法中重新解耦出来。这意味着两个层面的努力:之一,将算法表达成一系列彼此解耦的表征的产物;之二,理解各相应表征的含义。譬如,从当前无法理解的人脸嵌入或矢量中,将“眼睛”“鼻子”“嘴巴”等表征找到,并将人脸识别算法表达成这些表征的关系。相应问题进展频繁。张拳石等学者将在今年CVPR口头报告的研究,即附条件地实现了上述两点。

并非所有数据表征都与算法紧密耦合。实际上,许多常见算法依赖的表征都很容易复用:从一个场景中的算法迁移到另一个场景的算法,甚或从一类算法迁移到另一类算法,等等。于是,表征可以治理,也需要治理,以提升其复用率和算法整体的效率。无论是企业层面还是行业层面,通常称为“特征商店”的表征治理都可谓“正在发生”。在企业层面,特征商店已成诸多企业数据基础设施的组成部分;在产业层面,类似Hugging Face的、开源流通常见算法及相应表征的尝试,应属产业发展最热门方向之一。尽量展示复杂算法和表征的细节,令从业者共同使用、共同建设、共同享有,可谓新一波的算法自治理潮流。

一切都还未定局,远航者不希望太早看到终点。虽然如此,无论是从算法解耦表征,还是让表征标准化、可流通,都可以视为令本来难以理解的表征“说清楚”的努力。随着这一趋势持续,各国治理者将很快可以更加称手地在决定里使用数据表征这一概念,并将其作为日用工具之一。例如,假如算法能够清楚地拆解成若干表征,这些表征也都已经标准化、可以从公开渠道了解,有关算法获解释(说明)权的众多设想,自然具备了切实的抓手。

如上,数据表征是一座视野所及保持通畅的桥,矗立在容易治理的数据和难以治理的算法之间。表征因此成为当下算法治理的“牛鼻子”。美国、英国、澳大利亚等地皆由此入手治理算法,前沿技术和产业发展层面亦在相同方向上配合攻坚。以为镜鉴,观照域内,《互联网信息服务算法推荐管理规定》第十条规定,“算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。”第十一条也提到“针对其个人特征的用户标签”。最高人民法院《关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》第一条即规定,“人脸信息”属于“生物识别信息”。《个人信息安全规范》也将“面部识别特征”归类到“个人生物识别信息”。这些观点与FTC观点“人脸表征不仅包括基于人脸生成的表征,还包括其他多模态的表征,比如基于视频的表征”间,颇有可比较之处。尽管我国制度并未使用“嵌入”“矢量”“表征”等概念,而是选择了“标签”“兴趣点”“特征”来入手,这些技术概念的用法并不区分国界,所承载趋势也多有共通。因此,我们相信前述分析足以广泛适用。

(作者:朱悦,王睿 编辑:陆跃玲)

(责任编辑:崔晨 HX015)

文章内容来自网络,如有侵权,联系删除、联系电话:023-85238885

参与评论

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

评论区