偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!

Meta被两家美国成人电影公司Strike 3 Holdings和Counterlife Media告上法庭。指控令人震惊:自2018年起,Meta系统性盗版2396部成人影片,用于训练其AI模型。

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第1张图片-IT技术视界

不仅是下载,Meta还利用BT网络的机制持续做种传播,形成了名副其实的“公司级盗播网络”。最离谱的是,一些盗版活动甚至追踪到了Meta员工的家用网络。

01 完美侵权计划:企业级盗播网络

原告提供的证据令人咋舌:至少47个IP地址直接归属Meta名下,还有更多隐藏在虚拟私有云内。这些IP地址呈现“高频+长时段+多分辨率”同步下载特征,明显是机器操作而非人类观看行为。

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第2张图片-IT技术视界

Meta甚至还编写脚本控制做种行为,用自家服务器和员工私人网络构建了一套覆盖内外的系统性盗播体系。这种操作方式显示出这绝非个别员工的行为,而是公司层面的系统化操作

02 为何选择成人影片?AI的“黄金饲料”

成人影片成为AI训练素材并非偶然。这类内容具备其他数据无法比拟的技术优势:画质高、镜头稳定、表情自然、动作连贯(小坦上网搜的,表示自己并没有看过)

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第3张图片-IT技术视界

对于视频生成模型来说,这类内容提供了罕见的“长时段自然人体画面”、“独特的人体交互与表情”,这些素材正好填补普通视频数据中缺失的部分。

Strike的律师在诉状中道出真相:成人影片是AI训练的“黄金素材”。而且这些内容在BT网络上获取成本极低,Meta通过“以种换种”的BT算法,将盗版内容重新上传以换取下载速度。

03 不是初犯:Meta的数据盗取惯技

这已经不是Meta第一次因数据盗版被告。2023年就有作家集体起诉Meta,指控其通过BT下载81.7TB盗版书籍训练LLaMA模型,当时Meta承认了BT使用行为。

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第4张图片-IT技术视界

Meta选择盗播这些视频,是为了加速下载其它更大规模的数据集。他们有选择地“挑片种子”,用最受欢迎的情色内容当做“下载货币”,换取快速获取其它数据集。

04 行业潜规则:数据原罪与版权法困境

Meta的案例并非孤例,而是AI行业“数据原罪”的冰山一角。OpenAI被《纽约时报》起诉非法使用数百万篇文章训练ChatGPT,Anthropic承认从盗版网站下载700万册图书。

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第5张图片-IT技术视界

当前法律体系对AI数据的纵容,助长了科技巨头的嚣张气焰。美国法院在Anthropic案中裁定“合法购买书籍的数字化训练属于合理使用”,却回避了“盗版数据是否适用同一标准”的核心问题。

更荒谬的是赔偿标准的“双轨制”:Strike等成人公司因单部影片索赔15万美元,而作家协会起诉Meta时,法院却以“无法证明市场损失”为由驳回部分诉求。

05 天价赔偿:3.59亿美元的警钟

按美国版权法故意侵权条款,2396部作品最高可判赔3.59亿美元(折合25.79亿人民币)。这笔天价赔偿不仅是对Meta的惩罚,更是对整个AI行业的警示。

偷2396部黄片训练AI ,Meta摊上大事了,面临25.79亿天价罚单!-第6张图片-IT技术视界

如果法院认定侵权成立,Meta不仅要赔巨款,还可能被迫删除侵权训练数据和相关模型。这对于已经投入大量资源训练模型的Meta来说,将是更为沉重的打击。

06 数据治理与伦理底线

Meta偷黄片训练AI的丑闻,终将随着和解协议或法院判决淡出公众视野。但隐藏在背后的问题不会消失:当科技巨头用你的聊天记录、医疗影像、监控画面训练AI时,我们是否已沦为AI的“数字饲料”?

欧盟《人工智能法案》要求高风险AI系统“确保数据质量与透明度”,中国《生成式AI管理办法》强调“语料来源合规”,这些制度尝试虽显稚嫩,却指明了方向:数据治理不是选择题,而是生存题

Meta对此回应称:“我们正在审查诉状,但认为Strike的指控并不准确。”

但业内推测双方可能达成庭外和解。无论结果如何,这场官司已经向所有AI公司发出了明确信号:在追求技术进步的同时,必须严格遵守版权法律

AI的未来,不应建立在盗取的数据之上。

THE END