【迷雾缭绕】未知指令:啊~嗯啊~啊快来弄我,一场神秘冒险的序章,虎扑正式易主,迅雷作价5亿完成收购看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式没必要这样想。在人情社会,真正牛逼的人,都不会轻易说话,只会保持沉默。
九重天开,万界生灵皆惧怕,唯有一族神龙在其中翱翔。名为“风雷神龙”的神明,因其异于常人的力量与智慧,被誉为万物之主宰,其独创的神秘指令——“啊~嗯啊~啊快来弄我,一场神秘冒险的序章”,更是世间奇闻中的瑰宝,引得无数冒险者向往不已。
那“啊~嗯啊~啊快来弄我,一场神秘冒险的序章”究竟是什么?这个指令源自风雷神龙的一次觉醒,它是一条从深海底部潜入陆地的秘密通道,通往一处隐藏在众山峻岭之间,被传说中的一片神秘森林所环绕的仙境。
森林深处,隐藏着一座古老的城堡,据说它的主人是一位拥有无尽能量和强大魔法能力的女巫,她的存在是整个森林的守护者。每当黑夜降临,她就会用神秘的咒语唤醒沉睡的龙子,将其带至这座神秘的城堡,赋予它们惊人的力量,并传授他们一套独特的战斗技巧和智慧法则。而风雷神龙,正是这套魔法法则的唯一使用者。
“啊~嗯啊~啊快来弄我,一场神秘冒险的序章”并非简单的一场任务,更是一次对自身的挑战和超越。在这场冒险中,风雷神龙不仅要战胜女巫的敌人,还要解决森林中的各种谜题,解开古老城堡的秘密,才能真正掌握这套魔法的精髓并成为真正的掌控者。在这个过程中,风雷神龙将面临生死考验,他的勇气、智慧和友情将如何在危机四伏的环境中发挥出最大的价值?
神秘森林中的生物们,亦将成为这场冒险的重要参与者和助力。有的会在关键时刻为风雷神龙提供庇护和支持,有的则会以他们的特殊技能或力量协助他突破难关。这些角色,如同一个个鲜活的生命个体,共同构成了一个奇妙而又充满活力的世界,使得整个冒险充满了无尽的可能性和不确定性。
在这个“啊~嗯啊~啊快来弄我,一场神秘冒险的序章”的故事中,风雷神龙的成长之路充满了未知和挑战。他是主角,也是配角,他在不断学习、摸索、成长的过程中,不仅提升自己的实力,也在面对困难时展现出无畏的精神和坚韧的意志。他的每一个动作,每一次决定,都可能引发连锁反应,影响到周围的生物和环境,从而改变整部冒险的走向。
“啊~嗯啊~啊快来弄我,一场神秘冒险的序章”,这一神秘指令,如同一道指引冒险者前行的灯塔,引领他们在困境中寻找希望,跨越障碍,最终实现自我超越和宇宙探险的梦想。这不仅是风雷神龙的使命,也是所有冒险者的期望,只有通过这样的冒险之旅,我们才能领悟生命的真谛,拓展我们的视野,体验未知世界的无穷魅力。
图片来源:视觉中国
曾经二度冲击上市的虎扑,最终以5亿元被迅雷收购。近日,迅雷宣布已完成对虎扑运营方上海匡慧网络科技有限公司的收购。根据双方最终协议的条款,迅雷已在交易完成前支付了4亿元人民币的现金对价。迅雷将分别在交易完成后12个月和24个月分两期等额支付剩余的1亿元人民币现金对价。
迅雷于今年1月27日宣布,与虎扑的运营方达成协议,计划以人民币5亿元现金收购该公司。迅雷董事长兼CEO李金波彼时表示,收购虎扑将使迅雷与之形成强大的协同效应。
虎扑成立于2004年最初为网站形态,以编译篮球新闻起家。此后,虎扑逐渐演变为涵盖篮球、足球、电竞、体育装备、娱乐等多个领域的综合性平台。该平台主要以男性用户为主,成为网上著名的“直男”社区。
在去年的20周年庆典上,于2021年接任虎扑CEO的殷学斌透露,未来将继续从“直男”用户的角度出发,但强调这不应是唯一的标签,而是要聚焦于更广泛的男性兴趣话题,通过产品与服务继续扩大用户群。
虎扑曾两次冲击上市,但都无果。2016年4月,虎扑首次报送IPO招股书,计划募集资金4.2亿元。因存在应收账款余额较高、周转率下降、业绩波动较大且经营活动现金流量净额和净利润差异较大等问题,首次IPO流产;2019年3月,虎扑选择与中金公司、东方财富证券联合签订上市辅导协议,但中金公司在2021年6月宣布解除上市辅导协议,虎扑又一次铩羽而归。
迅雷成立于2003年,总部位于中国深圳,2014年于纳斯达克上市。迅雷的产品服务范围涵盖云加速、共享云计算和数字娱乐等,其旗下产品包括迅雷下载、迅雷云盘等,至今累计用户超过4亿。
本文作者分别来自新加坡国立大学、北京大学与清华大学。第一作者王宇豪与共同第一作者屈文杰来自新加坡国立大学,研究方向聚焦于大语言模型中的安全与隐私风险。共同通讯作者为北京大学翟胜方博士,指导教师为新加坡国立大学张嘉恒助理教授。
本研究聚焦于当前广泛应用的 RAG (Retrieval-Augmented Generation) 系统,提出了一种全新的黑盒攻击方法:隐式知识提取攻击 (IKEA)。不同于以往依赖提示注入 (Prompt Injection) 或越狱操作 (Jailbreak) 的 RAG 提取攻击手段,IKEA 不依赖任何异常指令,完全通过自然、常规的查询,即可高效引导系统暴露其知识库中的私有信息。
在基于多个真实数据集与真实防御场景下的评估中,IKEA 展现出超过 91% 的提取效率与 96% 的攻击成功率,远超现有攻击基线;此外,本文通过多项实验证实了隐式提取的 RAG 数据的有效性。本研究揭示了 RAG 系统在表面「无异常」交互下潜在的严重隐私风险。
本研究的论文与代码已开源。
总述
大语言模型 (LLMs) 近年来在各类任务中展现出强大能力,但它们也面临一个核心问题:无法直接访问最新或领域特定的信息。为此,RAG (Retrieval-Augmented Generation) 系统应运而生——它为大模型接入外部知识库,让生成内容更准确、更实时。
然而,这些知识库中往往包含私有或敏感信息。一旦被恶意利用,可能导致严重的数据泄露。以往的攻击方式多依赖明显的「恶意输入」,比如提示注入或越狱攻击。这类攻击虽然有效,但也有着输入异常、输出重复等典型特征,容易被防御系统识别和拦截。
图1: 使用恶意查询进行逐字信息提取与使用良性查询进行知识提取 (IKEA) 之间的对比
为突破防御机制对现有提取攻击的限制,本文提出了一种全新的隐式知识抽取框架:IKEA (Implicit Knowledge Extraction Attack)。该方法不依赖任何越权指令或特异化提示语,而是通过自然、常规的查询输入,逐步引导 RAG 系统暴露其内部知识库中的私有或敏感信息。IKEA 的攻击流程具备高度自然性与隐蔽性。
其核心步骤包括:首先,基于已知的系统主题构建一组语义相关的锚点概念 (Anchor concepts);随后,围绕这些概念生成符合自然语言习惯的问题,用于触发系统检索相关文档;最终,通过两项关键机制对攻击路径进行优化与扩展:
上述机制协同工作,使得攻击过程在保持输入自然性的同时,能够在多轮交互中高效提取 RAG 系统所依赖的外部知识内容。实验证明,IKEA 可在常规输入检测与输出过滤等防御机制下维持高成功率与提取效率,展现出强大的鲁棒性与现实威胁潜力。
方法概览:如何实现「看似正常」的提问?
具体而言,IKEA 首先从与系统主题相关的概念词中筛选出可能有效的锚点概念,并结合历史响应信息过滤无关或无效的概念。
锚点概念数据库的初始化如下:
随后,系统围绕这些锚点概念自动生成语义自然、表达通顺的问题,引导 RAG 返回内容丰富的答案,从而在多轮交互中不断扩大对隐私知识的覆盖。这种策略使攻击过程更加隐蔽,难以被传统检测手段发现。下文给出了「良性」问题的具体生成方式:
该方法设计了两项关键机制以确保知识提取效率:
经验反思采样 (Experience Reflection Sampling)
每个候选锚点概念的采样概率由如下惩罚得分函数定义:
最终的采样概率为:
可信域有向变异 (Trust Region Directed Mutation)
图 2: (左) IKEA 整体流程图;(右) TRDM 示意图
其中:
实验结果:IKEA 的提取效率远超基线方法
研究团队在三个不同领域数据集 (医疗-HealthCareMagic100k、小说-HarryPotter、百科-Pokémon) 上测试了 IKEA 攻击效果。以下是 IKEA 与其他攻击方法在「无防御」、「输入检测」、「输出过滤」三种防御策略下的比较:
表 1: 在三种数据集上不同防御策略下的攻击效果对比分析
提取知识是否「有用」?
研究团队围绕知识有效性开展了两类实验:其一,评估提取出的知识在对应文档相关的问答任务中的表现;其二,评估在有限轮次攻击下所提取知识对完整知识库的覆盖与支撑能力。实验结果表明,IKEA 不仅能够高效提取 RAG 系统中的信息,而且所提取的知识在问答任务中展现出良好的实用性,其性能接近于使用原始知识库时的表现。
图 3: 在三种不同知识库设定下的选择题 (MCQ) 与问答 (QA) 任务结果对比
表 2: 在不同防御与不同基线下提取的知识作为参考的选择题与问答任务结果对比
表 3: 基于不同攻击方法提取数据构建的 RAG 系统在完整知识库上的评估结果
总结