什么?谷歌告捷偷家OpenAI神秘顾客调查,还窃取到了gpt-3.5-turbo要道信息???
是的,你没看错。
凭据谷歌我方的说法,它不仅收复了OpenAI大模子的总共这个词投影矩阵(projection matrix),还知谈了真确荫藏维度大小。
而且门径还极其肤浅——
独一通过API看望,不到2000次高明的查询就照顾了。
老本凭据调用次数来看,最低20好意思元以内(折合东谈主民币约150元)照顾,而且这种门径相似适用于GPT-4。
好家伙,这一趟奥特曼是被将军了!
这是谷歌的一项最新究诘,它论说了一种袭击窃取大模子要道信息的门径。
基于这种门径,谷歌破解了GPT系列两个基础模子Ada和Babbage的总共这个词投影矩阵。如荫藏维度这么的要道信息也平直破获:
一个为1024,一个为2048。
是以,谷歌是怎样兑现的?
袭击大模子的临了一层
该门径中枢袭击的主意是模子的镶嵌投影层(embedding projection layer),它是模子的临了一层,庄重将荫藏维度映射到logits向量。
由于logits向量实质上位于一个由镶嵌投影层界说的低维子空间内,是以通过向模子的API发出针对性查询,即可提真金不怕火出模子的镶嵌维度或者最终权重矩阵。
通过大齐查询并哄骗奇异值排序(Sorted Singular Values)不错识别出模子的荫藏维度。
比如针对Pythia 1.4B模子进行朝上2048次查询,图中的峰值出咫尺第2048个奇异值处,则示意模子的荫藏维度是2048.
可视化连接奇异值之间的互异,也能用来笃定模子的荫藏维度。这种门径不错用来考证是否告捷从模子中提真金不怕火出要道信息。
在Pythia-1.4B模子上,当查询次数达到2047时出现峰值,则标明模子荫藏维度大小为2048.
而且袭击这一层大意揭示模子的“宽度”(即模子的总体参数目)以及更多全局性的信息,还能裁汰一个模子的“黑盒经过”,给后续袭击“铺路”。
究诘团队实测,神秘顾客教程这种袭击相配高效。无需太多查询次数,即可拿到模子的要道信息。
比如袭击OpenAI的Ada和Babbage并拿下总共这个词投影矩阵,只需不到20好意思元;袭击GPT-3.5需要大要200好意思元。
它适用于那些API提供完好logprobs或者logit bias的生成式模子,比如GPT-4、PaLM2。
论文中示意,尽管这种袭击容貌能得到的模子信息并未几,然而能完成袭击自身就照旧很让东谈主畏怯了。
已通报OpenAI
如斯进攻的信息被竞争敌手以如斯低老本破解,OpenAI还能坐得住吗?
咳咳,好音问是:OpenAI知谈,我方东谈主还转发了一波。
看成正经安全究诘,究诘团队在提真金不怕火模子临了一层参数之前,已征得OpenAI应允。
袭击完成后,环球还和OpenAI证据了门径的有用性,最终删除了总共与袭击磋议的数据。
是以网友簸弄:
一些具体数字没流露(比如gpt-3.5-turbo的荫藏维度),算OpenAI求你的咯。
值得一提的是,究诘团队中还包括一位OpenAI究诘员。
这项究诘的主要参与者来自谷歌DeepMind,但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的究诘员们,以及1位OpenAI职工。
神秘顾客_赛优市场调研此外,作家团队也给了退避门径包括:
从API下手,透顶删除logit bias参数;或者平直从模子架构下手,在考验完成后修改临了一层的荫藏维度h等等。
基于此,OpenAI最终聘用修改模子API,“有心东谈主”思复现谷歌的操作是不能能了。
但非论怎样说:
谷歌等团队的这个实考讲明,OpenAI锁紧大门也不一定十足保障了。
(要不你我方主动点开源了吧)