“如果新闻业正在化为乌有,那我还不如吸点烟呢”:一位聊天机器人助手的自白
人类作家在大语言模型(LLM)训练中一直在起作用,这揭示了他们如何为AI生成高质量的文本,而不仅仅是为了取代他们的工作。尽管技术进步令人振奋,但人类仍然扮演着不可或缺的角色,提供了AI所需的训练数据,以避免模型的“幻觉”。然而,随着信息的有限性和模型的逐步完善,未来人类作家的地位和工作将面临新的挑战和转变。
关键点
作家为大型语言模型(LLM)撰写虚拟响应,以帮助训练这些AI系统,但其工作不会被外部读者阅读。
AI通过人类写作获得的“金标准”示例,有助于避免生成不准确或虚假的内容。
语言模型目前无法仅通过自身生成的数据进行有效训练,需依赖真实的文本数据。
研究人员预测,若当前发展趋势持续,数据集的耗尽将于2026至2032年间出现。
文本生成模型在训练过程中,可能会因过度依赖合成数据而导致“模型崩溃”,失去对少数数据的敏感性。
对于高质量的训练数据的需求越来越高,导致行业内薪酬普遍上升,很多角色的工资超过30英镑每小时。
尽管目前对AI的投资持续增强,但未来技术的发展可能会挑战人类作家在这方面的重担。