生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brown et al., 2020)。生成式大模型不同于判别式模型直接对输入数据进行分类或预测,其能够通过学习数据的概率分布来生成新的数据,如文本、图像、音频等;同时,较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此,生成式大模型通过在大型数据集上进行预训练学习,并在下游任务上进行微调的方式,在自然语言处理和计算机视觉等领域的复杂任务上表现出较高的性能和较强的泛化能力。
2022年11月30日,OpenAI开放测试AI驱动的聊天机器人ChatGPT,它是OpenAI基于GPT-3.5等前几代生成式预训练模型(GPT)架构,在增加参数量和数据量后训练得到的生成式对话系统。ChatGPT能够与用户进行自然而流畅的对话,并根据用户输入的对话内容提供有意义的回复。因为参数规模增加,ChatGPT的能力得到了飞跃式提升,其能够处理复杂的对话场景,理解上下文信息,并生成连贯、有逻辑的回复,同时支持多语言对话,并且可以根据用户输入的对话内容进行个性化回复。ChatGPT的推出标志着自然语言处理技术的一个重要里程碑,它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM 2模型,展示了在多语言理解和生成方面的突破。同年末,Meta发布了LLaMA 2模型,旨在提供更高效的多任务处理能力。OpenAI也在2023年发布了更为先进的GPT-4模型,进一步提升了对话和生成能力。在2023年,各大公司纷纷推出自研大模型,推动生成式AI在各类应用中广泛部署。其中,Anthropic推出以安全性为主打的大语言模型Claude,旨在提供更加可靠和安全的生成式AI解决方案;MidJourney发布第五代文生图模型,其对人类手部细节特征的描绘达到了前所未有的精度;Microsoft则推出了由GPT支持的Copilot,宣称是“地球上最强大的生产力工具”,通过集成GPT技术大幅提升办公和开发效率。到2024年,大模型技术进一步取得了显著进展。各大公司在已有基座模型的基础上持续扩展规模,迭代更新版本。同时,最新的研究重点逐步转向多模态大模型的开发,以及基于强化学习与人类反馈和偏好对齐等相关前沿技术的应用,旨在进一步提升大模型的泛化能力和多领域应用能力,也进一步增强了大模型在生产生活中的实际应用价值。本白皮书将首先介绍国内外生成式大模型的发展历程,及其在人类生产生活中的应用。