Large Language Model 大语言模型

AI
AI知识库
2025年7月3日

所谓语言模型（Language Model）是一种机器学习算法，它可以根据给定文本来预测下一个词语或字符的出现的概率，通过大量的文本数据来学习语言的统计特征，进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型，用来估计文本序列中每个词语或字符出现的概率，从而实现语言生成、语言理解等自然语言处理任务。

大型语言模型（Large Language Model，LLM），即利用大规模语料数据进行预训练的预训练语言模型（Pre-trained Language Models，PLMs），是自然语言处理（Natrual Language Processing，NLP）的方式之一。

简言之，大语言模型是在巨大数据集上训练以理解人类语言的深度学习模型，其核心目标是准确地学习和理解人类语言，大语言模型使机器能够像我们人类解释语言一样解释语言，彻底改变了计算机理解和生成人类语言的方式。

参数量, 训练集, 记忆与上下文, 温度与top-p, Token

1.参数量（Number of Parameters）

可以把大语言模型的参数量想象成我们大脑里的“神经元”数量。参数越多，模型就越聪明，能记住更多东西、理解更复杂的语言。但“神经元”多了，模型变得“聪明”的同时，也需要更多“能量”（算力）来支撑。这就像一个超级复杂的大脑，学习能力很强，但也很耗费资源。

通俗理解：

•更多参数=更聪明的AI。

•需要更多计算资源：就像大脑要消耗更多“能量”，AI模型需要更大的计算力和显存。

2.训练集（Training Data）

可以把训练集想象成模型成长的“书本”或“见过的世界”。AI通过阅读这些书来学习语言规则和表达方式。训练集越丰富，模型就像“见多识广”的人一样，能够理解和回应更多问题。

通俗理解：

•多读书，见多识广：模型接触的数据来源越广，表现越好。

•垃圾进，垃圾出：如果训练数据不干净，模型学到的内容也可能是错误的。

3.记忆与上下文（Memory and Context）

短期记忆： AI的记忆依赖于我们与它之前的对话，就像你和朋友聊天时可能会忘记很久以前谈过的话题，但最近几句还是记得的。

长期记忆：AI依靠自己的判断，将之前的部分对话内容进行了总结和记忆，以便在需要的时候读取出来。

会被作为长期记忆的内容：

•用户的兴趣和关注点

•用户的需求和目标

•用户的背景和设置

•对话中的明确请求

•技术细节

4.Temperature（温度）与top-p

top-p：当 top-p 值低时，模型像个“目光狭窄的人”，只考虑概率最高的少数几个词，生成的内容更直接、更精准；当 top-p 值高时，模型像个“眼界开阔的人”，会同时考虑更多可能性，包括那些概率较低但有趣的词，生成的内容更丰富，但也可能更跳脱。

想象模型为每个词分配一个概率，我们从高概率开始累加，直到总和达到设定的 p 值（如 0.9），只保留这些词作为候选，其他低概率词直接剔除。

•影响：

◦小的 p（如 0.8）：只保留最确定的词，生成内容更保守、精准。

◦大的 p（如 0.95）：允许更多低概率词加入，生成更丰富、多样。

Temperature：

可以类比为“模型的性格”或“思考时的随机性”。当温度高时，模型像个“天马行空”的人，生成的内容更有创意，但也可能更不靠谱；温度低时，模型像个“谨慎的人”，只会给出最安全、最保守的回答。

它改变了每个词的概率分布。温度低时，模型倾向于选择高概率词；温度高时，所有词的概率差异被拉平，增加低概率词的可能性。

•影响：

◦温度低（如 0.7）：内容更确定，逻辑性强。

◦温度高（如 1.2）：内容更随机，适合创造性任务。

区别：top-p 控制范围，温度控制倾向：

•top-p 决定“从哪部分候选中选”，影响选择的内容多样性；

•温度决定“怎么选”，影响选择的随机性和可能性。

使用：

•首调 top-p 控制范围（确保候选合理性）。

•再调温度细化输出风格（控制稳定性或随机性）。

5.Token

可以把Token想象成“拼图块”。为了让模型理解一句话，先要把这句话拆成一个个小块（Token）。模型对每个Token进行分析和处理，然后再把结果拼起来，生成完整的回答。

•模型处理语言的基本单位：语言模型在理解和生成语言时，都是以Token为单位操作的。

•上下文窗口的限制：模型在一次会话中能处理的Token数量是有限的（例如GPT-3最多能处理4096个Token，GPT-4可以处理32000个Token）。当输入超过这个限制时，模型只能处理其中的一部分。

AI

暂无介绍....

Large Language Model 大语言模型

AI

人工智能助力教学增效：一线教师必备的AI工具与使用技巧

Agent 智能体

延伸阅读:

Prompt

AIGC

大模型幻觉

什么是MCP

什么是蒸馏