Large Language Model 大语言模型

所谓语言模型(Language Model)是一种机器学习算法,它可以根据给定文本来预测下一个词语或字符的出现的概率,通过大量的文本数据来学习语言的统计特征,进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型,用来估计文本序列中每个词语或字符出现的概率,从而实现语言生成、语言理解等自然语言处理任务。
大型语言模型(Large Language Model,LLM),即利用大规模语料数据进行预训练的预训练语言模型(Pre-trained Language Models,PLMs),是自然语言处理(Natrual Language Processing,NLP)的方式之一。
简言之,大语言模型是在巨大数据集上训练以理解人类语言的深度学习模型,其核心目标是准确地学习和理解人类语言,大语言模型使机器能够像我们人类解释语言一样解释语言,彻底改变了计算机理解和生成人类语言的方式。
参数量, 训练集, 记忆与上下文, 温度与top-p, Token
1.参数量(Number of Parameters)
可以把大语言模型的参数量想象成我们大脑里的“神经元”数量。参数越多,模型就越聪明,能记住更多东西、理解更复杂的语言。但“神经元”多了,模型变得“聪明”的同时,也需要更多“能量”(算力)来支撑。这就像一个超级复杂的大脑,学习能力很强,但也很耗费资源。
通俗理解:
•更多参数=更聪明的AI。
•需要更多计算资源:就像大脑要消耗更多“能量”,AI模型需要更大的计算力和显存。
2.训练集(Training Data)
可以把训练集想象成模型成长的“书本”或“见过的世界”。AI通过阅读这些书来学习语言规则和表达方式。训练集越丰富,模型就像“见多识广”的人一样,能够理解和回应更多问题。
通俗理解:
•多读书,见多识广:模型接触的数据来源越广,表现越好。
•垃圾进,垃圾出:如果训练数据不干净,模型学到的内容也可能是错误的。
3.记忆与上下文(Memory and Context)
短期记忆: AI的记忆依赖于我们与它之前的对话,就像你和朋友聊天时可能会忘记很久以前谈过的话题,但最近几句还是记得的。
长期记忆:AI依靠自己的判断,将之前的部分对话内容进行了总结和记忆,以便在需要的时候读取出来。
会被作为长期记忆的内容:
•用户的兴趣和关注点
•用户的需求和目标
•用户的背景和设置
•对话中的明确请求
•技术细节
4.Temperature(温度)与top-p
top-p:当 top-p 值低时,模型像个“目光狭窄的人”,只考虑概率最高的少数几个词,生成的内容更直接、更精准;当 top-p 值高时,模型像个“眼界开阔的人”,会同时考虑更多可能性,包括那些概率较低但有趣的词,生成的内容更丰富,但也可能更跳脱。
想象模型为每个词分配一个概率,我们从高概率开始累加,直到总和达到设定的 p 值(如 0.9),只保留这些词作为候选,其他低概率词直接剔除。
•影响:
◦小的 p(如 0.8):只保留最确定的词,生成内容更保守、精准。
◦大的 p(如 0.95):允许更多低概率词加入,生成更丰富、多样。
Temperature:
可以类比为“模型的性格”或“思考时的随机性”。当温度高时,模型像个“天马行空”的人,生成的内容更有创意,但也可能更不靠谱;温度低时,模型像个“谨慎的人”,只会给出最安全、最保守的回答。
它改变了每个词的概率分布。温度低时,模型倾向于选择高概率词;温度高时,所有词的概率差异被拉平,增加低概率词的可能性。
•影响:
◦温度低(如 0.7):内容更确定,逻辑性强。
◦温度高(如 1.2):内容更随机,适合创造性任务。
区别:top-p 控制范围,温度控制倾向:
•top-p 决定“从哪部分候选中选”,影响选择的内容多样性;
•温度决定“怎么选”,影响选择的随机性和可能性。
使用:
•首调 top-p 控制范围(确保候选合理性)。
•再调温度细化输出风格(控制稳定性或随机性)。
5.Token
可以把Token想象成“拼图块”。为了让模型理解一句话,先要把这句话拆成一个个小块(Token)。模型对每个Token进行分析和处理,然后再把结果拼起来,生成完整的回答。
•模型处理语言的基本单位:语言模型在理解和生成语言时,都是以Token为单位操作的。
•上下文窗口的限制:模型在一次会话中能处理的Token数量是有限的(例如GPT-3最多能处理4096个Token,GPT-4可以处理32000个Token)。当输入超过这个限制时,模型只能处理其中的一部分。