欢迎访问本网站,启智AI助力教学网 是由 长春师范大学教育学院 统筹建设! 本平台是AI赋能教育教学的具体实践,秉承公益免费的理念为师生提供服务!

Large Language Model 大语言模型

所谓语言模型(Language Model)是一种机器学习算法,它可以根据给定文本来预测下一个词语或字符的出现的概率,通过大量的文本数据来学习语言的统计特征,进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型,用来估计文本序列中每个词语或字符出现的概率,从而实现语言生成、语言理解等自然语言处理任务。

大型语言模型(Large Language Model,LLM),即利用大规模语料数据进行预训练的预训练语言模型(Pre-trained Language Models,PLMs),是自然语言处理(Natrual Language Processing,NLP)的方式之一。

简言之,大语言模型是在巨大数据集上训练以理解人类语言的深度学习模型,其核心目标是准确地学习和理解人类语言,大语言模型使机器能够像我们人类解释语言一样解释语言,彻底改变了计算机理解和生成人类语言的方式。

参数量, 训练集, 记忆与上下文, 温度与top-p, Token

1.参数量(Number of Parameters)

可以把大语言模型的参数量想象成我们大脑里的“神经元”数量。参数越多,模型就越聪明,能记住更多东西、理解更复杂的语言。但“神经元”多了,模型变得“聪明”的同时,也需要更多“能量”(算力)来支撑。这就像一个超级复杂的大脑,学习能力很强,但也很耗费资源。​

通俗理解:​

更多参数=更聪明的AI。​

需要更多计算资源:就像大脑要消耗更多“能量”,AI模型需要更大的计算力和显存。​

2.训练集(Training Data)

可以把训练集想象成模型成长的“书本”或“见过的世界”。AI通过阅读这些书来学习语言规则和表达方式。训练集越丰富,模型就像“见多识广”的人一样,能够理解和回应更多问题。​

通俗理解:​

多读书,见多识广:模型接触的数据来源越广,表现越好。​

垃圾进,垃圾出:如果训练数据不干净,模型学到的内容也可能是错误的。​

3.记忆与上下文(Memory and Context)

短期记忆: AI的记忆依赖于我们与它之前的对话,就像你和朋友聊天时可能会忘记很久以前谈过的话题,但最近几句还是记得的。​

长期记忆:AI依靠自己的判断,将之前的部分对话内容进行了总结和记忆,以便在需要的时候读取出来。​

会被作为长期记忆的内容:

•用户的兴趣和关注点​

•用户的需求和目标​

•用户的背景和设置​

•对话中的明确请求​

•技术细节​

4.Temperature(温度)与top-p

top-p:​当 top-p 值低时,模型像个“目光狭窄的人”,只考虑概率最高的少数几个词,生成的内容更直接、更精准;当 top-p 值高时,模型像个“眼界开阔的人”,会同时考虑更多可能性,包括那些概率较低但有趣的词,生成的内容更丰富,但也可能更跳脱。​

想象模型为每个词分配一个概率,我们从高概率开始累加,直到总和达到设定的 p 值(如 0.9),只保留这些词作为候选,其他低概率词直接剔除。​

影响:​

◦小的 p(如 0.8):只保留最确定的词,生成内容更保守、精准。​

◦大的 p(如 0.95):允许更多低概率词加入,生成更丰富、多样。​

Temperature:

可以类比为“模型的性格”或“思考时的随机性”。当温度高时,模型像个“天马行空”的人,生成的内容更有创意,但也可能更不靠谱;温度低时,模型像个“谨慎的人”,只会给出最安全、最保守的回答。​

它改变了每个词的概率分布。温度低时,模型倾向于选择高概率词;温度高时,所有词的概率差异被拉平,增加低概率词的可能性。​

影响:​

◦温度低(如 0.7):内容更确定,逻辑性强。​

◦温度高(如 1.2):内容更随机,适合创造性任务。​

区别:top-p 控制范围,温度控制倾向:​

•top-p 决定“从哪部分候选中选”,影响选择的内容多样性;​

•温度决定“怎么选”,影响选择的随机性和可能性。​

使用:​

•首调 top-p 控制范围(确保候选合理性)。​

•再调温度细化输出风格(控制稳定性或随机性)。​

5.Token

可以把Token想象成“拼图块”。为了让模型理解一句话,先要把这句话拆成一个个小块(Token)。模型对每个Token进行分析和处理,然后再把结果拼起来,生成完整的回答。​

模型处理语言的基本单位:语言模型在理解和生成语言时,都是以Token为单位操作的。​

上下文窗口的限制:模型在一次会话中能处理的Token数量是有限的(例如GPT-3最多能处理4096个Token,GPT-4可以处理32000个Token)。当输入超过这个限制时,模型只能处理其中的一部分。​​

暂无介绍....

延伸阅读:

Prompt

简单理解:Prompt就是我们给AI下达的指令,AI需要按照指令来执行.写好Prompt的六大黄金法则: ​ ...

AI
2025年7月3日
AIGC

一、AIGC是什么 AIGC(Artificial Intelligence Generated Content,人工智...

AI
2025年7月3日
大模型幻觉

📌 什么是大模型幻觉? 大模型幻觉(AI hallucination 或 Model Hallucination)是指A...

AI
2025年7月3日
什么是MCP

一、🔍 什么是MCP? MCP(Model Context Protocol,模型上下文协议) 是Anthropic公司...

AI
2025年7月3日
什么是蒸馏

模型蒸馏:让笨学生偷学霸的「解题思路」想象班里有个超级学霸(大模型): 每次考试都考100分,但做题超慢,一道题要写10...

AI
2025年7月3日