作者通过梯度累积技术,在本地RTX 3090上成功训练了一个GPT-2风格的大型语言模型,测试损失从3.943522降至3.538161,接近GPT-2小模型的3.499677,验证了梯度累积能模拟更大批次训练的稳定效果。