网易易盾朱浩齐受邀出席杭州通用人工智能论坛,发表AIGC内容治理相关演讲|世界资讯
5月30日,由中国信息通信研究院、浙江省经济和信息化厅、杭州市人民政府、中国人工智能产业发展联盟主办的杭州通用人工智能论坛,在杭州未来科技城学术交流中心成功举办。
本次会议以“大模型应用机遇和挑战”为主题,超过 1000 名产学研代表现场参会,共同探讨人工智能领域的创新经验与创新方向。网易易盾 CEO 朱浩齐受邀出席大会,并以《AIGC 浪潮下数字内容风控的新挑战》为主题发表演讲。以下是演讲实录:
(资料图片)
中国信通院副总工程师、中国人工智能产业发展联盟副秘书长王爱华大会致辞
各位领导、各位嘉宾,大家下午好!易盾是一家数字内容风控公司,自成立以来一直服务网易内部及行业其他公司的客户。刚才很多嘉宾也提到了大模型、AIGC 相关内容,我也想借此机会,和大家回顾一下,人工智能技术在“数字内容风控”行业的一些成长历程。本次分享分为四个方面:
一、简要介绍 AIGC 相关技术及应用;
二、介绍 AIGC 带来的潜在风险和挑战;
三、探讨应对这些挑战的策略;
四、对未来内容风控技术趋势进行判断。
2022-2023年的AIGC
数据快速繁殖,十年后模型的参数量可与人类总脑容量相当。
近半年来,以 ChatGPT 为代表的 AIGC 技术引起了广泛关注。借助 AIGC 技术,人们可以创作独特作品、提升工作效率,但也可能将其用于非法活动。数字内容风控行业也面临新的挑战,如何更有效、精准地识别风险,确保内容的合法性和真实性,值得探讨。因此,今天将与大家分享数字内容风控在 AIGC 浪潮下所面临的新挑战及应对策略。
ChatGPT 是史上用户数量增长最快的平台之一。2022 年底,OpenAI 推出 ChatGPT。令人惊叹的是,仅仅两个月后,月活跃用户就突破了亿级,这使得 AIGC 成为备受瞩目的话题。
ChatGPT 作为 AIGC 的一部分,主要用于文字生成,而 AIGC 不仅包括文字生成,还包括图像、3D 和音视频生成等。文字生成可用于智能对话,图像生成技术可用于艺术创作,3D 生成技术可应用于建筑、工业设计等领域,视频生成技术可生产出兼具艺术性和创新性的视频内容。在 AIGC 的助力下,上述工作的效率,到了一个全新的水平。
在文本领域,2018 年 GPT-1 的诞生标志着 NLP 无监督预训练模型的开端。随着 GPT-2、GPT-3、ChatGPT 和 GPT-4 的不断发展,这些模型的参数量已经从最初的大约1亿增长到了万亿级别。如果把 GPT-1 的参数量比喻为西湖的大小,现在 GPT-4 的规模已经相当于浙江省的面积。如果以这种速度继续下去,五年或十年后,模型的参数规模将达到地球甚至太阳表面积的数量级。这种快速发展和参数量是非常惊人的,十年后模型的参数量可能与人类总脑容量相当。
图像生成领域在过去的 10 年中也经历了快速的发展。2014 年,生成对抗网络开启了图像生成算法的新篇章。2021 年,基于扩散模型的算法凭借“加噪和去噪”的思路生成质量更高、多样性更强的图像,成为目前图像合成领域的主要研究方向。另外,Midjourney 是一款高质量的图像生成工具,始终采取不开源与收费的模式,已经成为众多设计师和画家的得力助手。如今,生成的图像质量已然以假乱真。
相较于图像生成,视频生成更难一些,但是目前合成视频的质量相比前几年已经有了很大的提升。在技术路线上,视频生成算法也较多地借鉴了图像生成相关的算法,例如当下研究火热的扩散模型。此外,和图像一样,视频生成也逐渐从单模态的视频生成逐渐走向跨模态的视频生成。举例而言,AIGC 支持基于文本描述生成一段视频。
综上而言,AIGC 实际上已经发展了很多年,并在各个领域取得了不错的进展。最近,以 ChatGPT 为代表的算法引起了人们的高度关注,让人们感受到了智能的存在和生产效率的提升,但同时也带来了一系列的风险和挑战。
警惕充斥侵权、虚假的数字世界
潜力巨大,但发展之路充满挑战。
自诞生以来,ChatGPT 的数据安全问题和隐私问题一直被提及。这与其训练方式密切相关,喂养 ChatGPT 的训练数据不仅包括维基百科,还包括其他社交媒体、新闻、科学论文等多种来源。
这种训练方式还带来了另一大算法问题:数据泄露,即生成的数据和训练数据很相似,如下方的版权图可能存在侵权风险(左图来源:Erin Hanson,右图来源:Rachel Metz via Stable Diffusion)。
此外,虽然用 ChatGPT 能够轻松应对日常写作任务,而在其背后,却掺杂着高比例的虚假信息,人工验证不可或缺。由此可见,AIGC 技术在下游应用上仍有许多不完善的地方。
确实,AIGC 技术的一个显著特点就是内容生成速度快。在 PGC 时代,内容生成主要依靠专业的创作团队,生成速度较慢,内容也比较单一。在 UGC 时代,内容生成更多地依靠用户创作,速度得到了明显提升,但质量不稳定。而在 AIUGC 和 AIGC 时代,内容生成速度更快,并且能够创造出具有艺术性、创新性和独特性的作品,内容创作空间更加广阔。
除了生成速度快之外,AIGC 技术可生成多样化的内容类型,包括文字、图片、音频、视频等,也支持在已有真实内容上做自定义修改。同时,借助跨模态技术,人们只要说一段话、写一段文字就能生成对应的内容,大大降低了内容创作的难度。
AIGC 不仅生成速度快、内容多样,而且内容逼真。以目前最常见的人脸生成为例,人物的整体形态和脸部细节都和真人相差无几,甚至连光影效果、虚化都能以假乱真。
基于以上 AIGC 的显著特点,在带来生产效率提升的同时,也充斥着欺诈、不合规内容的泛滥,给内容风控带来了新的挑战。这不仅要求内容风控需要精准有效,而且要能快速识别特定内容,保障内容的合法性和真实性。
变与不变,呼唤数字风控新时代
AIGC 暴露潜在问题,智能风控技术来弥补。
针对 AIGC 技术所带来的风控难题,易盾依靠近些年和黑产的对抗,沉淀出一套全方位的风控体系,结合近期出现的 AIGC 风险加以验证和优化,不断适应新的挑战。
这套风控体系应涵盖多个环节,以实现对生成内容的全面、精准、实时监控和管理,确保内容的安全可靠。
在体系建设方面,我们从 AIGC 提供商运营角度出发,结合国家政策与丰富的行业经验,提供了覆盖事前—平台运营前置的风险、事中—平台内容合规风险以及事后—投诉与违规处理风险的全流程解决方案。在 AI 算法治理、安全制度管理、AI 伪造内容识别、实时审核平台建设与人机交互等方面不断开拓与创新,构建了多轮多模态的内容风控体系,以确保平台上的内容安全合规,同时保证 AIGC 技术的正常运营和发展。
在产品形态上,我们设计了支持业务定制拦截尺度的策略,以满足每个客户的不同需求和标准。由于相同客户在不同场景不同时期的标准也会存在差异,我们采用通用标准和个性化标准结合的策略,通用标准的复用可以大大节约新客户接入的成本,个性化标准则进一步贴合客户定制需求,从而实现更加灵活、高效的内容风控服务。
为实现产品形态上的策略定制,网易易盾设计了多层级的标签组合。层级粒度越细,不仅有利于策略方案上灵活组合,实现客户定制需求,而且不断沉淀为坚实的知识库,借助知识图谱的能力,可以实现更强的信息检索和关联分析。
在算法层级上,我们设计了基于领域泛化的算法优化流程,在数据、特征学习、模型设计、训练技巧等方面分别进行优化。通过提高数据多样性和模型鲁棒性,领域差异的影响将越来越小,通用知识的积累使得模型在零样本、少样本迁移方面更有优势。这个思想也是大模型的基本思想,通过优化模型结构和算法流程,提高模型的泛化能力和适应性,以实现更加精准和高效的内容风控服务。
我们来看实际遇到的案例,首先是人脸相关的。AIGC 的人脸和真实人脸相比,细节丢失非常多,强行与真实人脸匹配难度较大。我们基于扩散模型实现了各类风格和人物的生成,多样化的大数据强化了人脸识别能力,同时新增形态识别、风格识别等辅助能力。最终,基于人脸、风格、人体形态、背景等联合特征进行综合决策与识别,我们实现了过度篡改条件下对于人脸识别、人脸属性、以及篡改方法等内容的精准识别,问题解决率在 80% 以上。
在色情性感方面,AIGC 可以低成本、快速生成大量色情性感内容,因此色情、性感的擦边球数据占比越来越多,随之而来的是不同客户对这些数据的拦截标准不一,此时采用一套统一的色情性感标准难以准确满足不同客户的需求。我们构建了基于色情性感大模型的定向学习能力,可实现快速迁移,最终实现面向每个客户的能力定制。定制成本相比之前减少一半以上,且效果普遍提升 30% 左右。
此外,还有一些新型的风险,如未成年人孕肚、男男孕肚等均是不良价值导向,这些新型风险的识别需要模型具备更强的语义能力。我们构建了图文多模态大模型,提供基础且强大的通用图像语义能力,借助高效的迁移学习能力,更准确识别指定风险数据。目前我们已支持十余项新型风险识别能力,定制成本减少 80%。
抓住 AI 跨越式发展的机遇之窗
洞察内容风控技术趋势,捕捉机遇,应对未来挑战。
AIGC 带来的全行业变化,可谓是改天换地,即使是过去看似稳固的方案和成熟的经验,在当今或已经不再适用。
为了适应新风险的挑战,互联网平台企业要求变,看清现在、洞察未来,以便选择正确的方向并制定有效的战略。以易盾为例,我们不断基于 AIGC 内容风险特点变革“数字内容风控”服务,以满足行业不断变化的需求。
如图所示,未来的内容风控需要解决的问题很多,但留给我们解决这些问题的时间却很短,这对我们的快速响应能力提出了极大的考验。
行业里有种说法,叫“技术是把双刃剑”。面对AIGC,我们除了防范它的负面效果外,也要充分利用它的正面能力。举个例子,在《复仇者联盟》这部电影里,人类创造的智能体奥创要启动核弹密码意图毁灭人类,最后是另外一个人工智能体贾维斯一直在变更密码保护人类。那回到现实中,我们也要充分利用大模型的技术,进一步提升我们的内容识别能力。比如我们对AIGC技术的研究,提前预演了大量潜在的内容风险,帮助易盾的“贾维斯”提前学习到了更多类型的有害信息,它便有了更好更快的防御能力。这也验证了网络上的一个梗,叫“用魔法打败魔法”。
从技术层面来看,AIGC 也确实可以赋能到内容风控能力,实现从定制到通用、从后知后觉到提前预判、从感知到认知的跨越。这种跨越使得内容风控能力更加全面、深入、稳定,从而显著提升了内容风控的效果和响应速度。通过借力 AIGC 技术本身,我们可以更快速、更准确地检测和识别涉嫌违规的内容,从而有效地保护用户和平台的合法权益。
未来的内容风控会朝着更加智能、灵活、互动的方向发展。在标准的自适应、边界的自界定、模态的自对齐等方面不断突破。我们可以像跟 ChatGPT 聊天一样,说出我们的标准和诉求,从更加主观化、更加个性化、更加多元化的视角来更好的完成内容风控任务,以实现更安全、更优质的内容风控任务,提供更好的用户体验。
最后我想说,技术的进步不可逆转,为了更好享受技术带来的便利,我真心希望数字内容风控技术,会像空气之于物理世界一样,在虚拟世界中无处不在,却又不宜感知。毕竟历史经验告诉我们,绝对的自由带来的是毁灭,放任网络内容混乱必然会影响到现实世界秩序。但我也有一些美好的愿望,希望安全能更加温暖、更加人性化,对于违规用户不再是粗暴的管理,而是更好地引导人们去使用技术,创造美好的内容。用魔法打败魔法,用最强的矛来打造最强的盾,网易易盾将一直坚持下去,为行业可信安全发展贡献自己的力量。谢谢大家!
声明:该文章系转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。