用于训练 Stable Diffusion 的数据集背后的组织声称已经消除了 CSAM
德国研究组织LAION发布了新的数据集Re-LAION-5B,声称该数据集已彻底清除与疑似儿童性虐待材料(CSAM)相关的链接。此更新遵循了多个组织的建议,原始数据集LAION-5B经过清理,提供了两个版本供研究使用。此外,LAION强调其数据集仅用于研究目的,旨在促使研究机构尽快迁移到新版本。
关键要点
- LAION是培训生成式AI模型(如Stable Diffusion)所使用数据集的创建者。
- 新发布的Re-LAION-5B数据集声称已去除与CSAM相关的链接,符合多家非营利组织的建议。
- Re-LAION-5B是对旧数据集LAION-5B的重新发布,修复了已知问题并提供了两个版本。
- 数据集不包含图像本身,而是 curated 的链接和图像的 alt 文本。
- 斯坦福互联网观察所的报告发现LAION-5B包含多个非法图像链接,这促使LAION将其数据集暂时下线。
- LAION的数据集旨在用于研究,而非商业用途,但现实中仍有公司和开发者可能会使用。
- LAION强烈建议所有使用旧LAION-5B数据集的研究实验室迁移到Re-LAION-5B数据集。
The org behind the data set used to train Stable Diffusion claims it has removed CSAM