Meta、Google、Adobe隐形水印算法大翻车！误报率远高于宣称

发布时间：2026/7/6 2:44:42

黑客与用户的不同视角用户看到的是甜甜圈黑客看到的是漏洞。这里有主页、博客、周边商品等相关信息。Neal Krawetz 博士撰写了 The Hacker Factor Blog可在 Mastodon 上关注他。实用工具集合这里有不少实用工具像 FotoForensics 可测试自己的照片Hintfo 能查看元数据Gender Guesser 可通过文字进行判断。各类相关链接有安全相关的互联网风暴中心、Krebs on Security、Bruce Schneier图像相关的 Photo Stealers、尴尬家庭照片、Unsplash新闻辟谣的 iMediaEthics、Poynter政治辟谣的 FactCheck、PolitiFact其他辟谣的 Snopes、Math with Bad Drawings。日历与存档信息展示了 2026 年 7 月的日历还有存档信息包括 2026 年 7 月、6 月、5 月的文章存档以及近期文章和更早文章的链接。订阅源与分类情况提供了 RSS 1.0 和 RSS 2.0 订阅源。分类众多有会议、版权、金融、取证等各类。Meta隐形水印算法研究失望开场2026 年 6 月 30 日对隐形水印算法的研究快结束了结果却让人失望透顶。现代基于 AI 的算法没达到宣称效果还犯了根本性错误。之前评估过 Google 的 SynthID 和 Adobe 的 TrustMark 算法它们都号称能有准确结果但实际并非如此。Google 宣称真阳性率超 99.97%实际概率接近二十分之一且 SynthID 专有Gemini 还会产生错误结果。Adobe 的 TrustMark 号称比特准确率超 96%实际误报率 10% - 20%基本没啥用。Meta的“Stable Signature”算法剖析这次评估了 Meta 的“Stable Signature”算法它会将 48 位序列编码到图片视觉内容中。传统隐形水印藏在微妙位置会重复嵌入数据和包含纠错码但可能产生可见失真。现代方法用 AI 系统减少失真。Stable Signature 对二进制数据编码用 AI 模型决定隐藏位置AI 解码器提取数据。不同基于 AI 的水印系统减少噪声的技术不同Google 的 SynthID 存储少量比特大量重复Adobe 的 TrustMark 用 BCH 算法Meta 的 Stable Signature 用汉明距离。Meta 论文称 48 位均匀分布误报率低于百万分之一但实际真的如此吗实证测试结果大相径庭实验假设一切按宣称的有效想可靠识别 Meta 相关隐形水印但不知道他们用的序列也不确定是否因不同来源用多个代码。从 FotoForensics 取了 2026 年 5 月上传的前 10000 张独特图像测试。结果呢没发现与 Meta 图像相关的集群说明 Meta 没使用 GitHub 上发布的 Stable Signature 水印软件。还发现 25 张不同图片有完全相同的比特序列按百万分之一的碰撞率这不该发生啊这些图片来源不同且都有深色背景和明亮物体表明 Stable Signature 更像感知哈希。以这 25 张图片为中心或一部分按 6 位汉明距离分别有 356 张和 450 张相似图片这个大集群占未筛选图像数据集的 4.5%。而且还发现超过 60 个集群每个集群在汉明距离为 6 时包含超 10 张图片这和百万分之一的碰撞率完全不符啊独立分析找出问题根源重新查看 Meta 研究论文发现他们测试系统时假设 48 位相互独立且均匀分布但他们用神经网络生成比特这些比特其实是相关的。论文假设二项分布计算了不同汉明距离阈值下随机图片偶然匹配的概率。Meta 论文称用 7 位汉明距离误报率低于百万分之一但实证测试在汉明距离为 6 甚至 0 时就出现碰撞了。核心问题理论与实证差异巨大理论概率和实证测试差异明显。Meta 论文假设 48 位独立未加水印图像应均匀分布但神经网络会映射非线性流形输出比特不独立。绘图结果显示有明显的集群、结构和空洞Meta 的 Stable Signature 实现生成的数据没通过独立性测试。最大集群代表零信号偏差按理论 6 位错误碰撞率约 2000 万分之一实际 10000 张图片中有 450 张在 6 位以内仅 ZSB 错误率约 22 分之一。加上其他至少含 10 张图片的集群2327 张图片处于各种集群中错误率约四分之一。用 AI 术语说这是典型的深度神经网络的表示崩溃或结构偏差。而且按“百万分之一”说法10000 张测试图像中有 5237 张处于包含 2 张或更多图片的集群中超过 50% 的可能性会出现误报匹配。不随机的数学证明把 2026 年 5 月的前 10000 张图像输入 Meta 代码去除不支持格式后得到 9847 张可用图片。用 NIST 统计测试套件中的单比特测试和卡方独立性测试评估数据随机性。单比特测试显示处理的总比特数为 472656 位观察到 1 的数量为 2664190 的数量为 206237预期数量各为 236328。卡方统计量为 7632.28p 值无限接近 0.0说明不是随机或独立的水印提取倾向于产生 1。卡方序列独立性测试显示相邻比特转移概率不符合独立假设卡方值为 12205.9p 值为 0.0也不是随机或独立的。还有静态尾部模式48 位序列末尾大量以 ...111101 或 ...00111101 结尾第 46、47、48 位有很高的固定值比例。结构聚类方面某些比特列互信息得分高知道第 12 位能超 80% 准确率预测第 28 位。Meta 研究人员计算准确率时犯了根本性错误误报匹配概率接近四分之一他们也承认提取的比特不独立但发表的误报分析仍依赖比特独立假设。普遍存在的统计学错误知道 Meta 准确率被夸大后回顾 Google 和 Adobe 关于水印的论文发现他们也犯了同样的“比特独立”错误。Google 的 SynthID 论文假设均匀分布过度关注真阳性率不涉及误报分布。Adobe 的 TrustMark 论文假设独立性把每个比特位置视为独立伯努利试验且未测试“随机”水印是否相似。这个统计学入门级错误在三种隐形水印技术中都存在检测结果非常不可靠。值得一提的是Meta 后来开发了 Pixel Seal 算法增加了有效载荷但底层方法仍用神经网络映射使用更多比特只会加剧缺陷。算法潜在用途待察算法可以有其用途。例如Meta、Google 和 Adobe 正在用他们。此处原文未完整表述只能按原文输出

相关新闻

Linux find 命令性能深度解析：对比 locate 与 fd 的 3 大场景实测

iNeuOS工业互联网操作系统

数据分析实战：销售数据洞察

AutoClicker：彻底解决重复鼠标点击任务的智能自动化方案

网络基础理论

文生图模型单打独斗效率低？多模型组合放大生产力的底层逻辑

Leiden 算法 Python 实战：3步解决 Louvain 社区不连通问题（附代码）

Three.js 细胞教程

国内光电互连解决方案提供商：四大硅光科创企业技术路线

中文大模型选型不是比参数，而是做工程化决策

STM32与LENA-R8构建全球定位与通信嵌入式系统

含金量高的EMBA｜2026国内及境外中英双语EMBA综合实力TOP5榜单

工业4-20mA电流环信号传输与XTR116应用设计

YOLO目标检测实战：从环境搭建到模型部署的保姆级教程

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

别再死记硬背了！用‘分界线’思维彻底搞懂C++ set的lower_bound和upper_bound

TwitchDropsMiner：无需观看直播，自动化获取Twitch掉落奖励的终极指南

从提示工程到上下文工程：2026年AI开发者的核心技能转换