LLM:大语言模型概述

LLM(Large Language Model):大语言模型。

OpenAI在2022年11月30日发布了基于GPT模型的聊天机器人ChatGPT,进入到2023年是大语言模型爆发的元年。

:读书笔记,参考自《LangChain 入门指南:构建高可复用、可扩展的LLM应用程序》

大语言模型起源

人类交流的语言,并非且单纯由文字构成,语言中富含隐喻、讽刺和象征等复杂的含义,也经常引用社会、文化和历史知识,这些都使得理解语言成为一项高度复杂的科学。

随着计算机技术的发展,科学家们想到模拟人类脑神经元结构来创造一种人工智能,让人工智能从大量的文本数据中自己学习和总结语言的规则与模式。

在机器学习方法中,神经网络在处理复杂的模式识别任务(如图像和语音识别等)上展示出了强大的能力。研究者们开始尝试使用神经网络来处理语言理解任务,进而诞生了大语言模型。

大语言模型是一种建立在 Transformer 架构上的大规模神经网络程序,其功能主要是理解和处理各种语言文字。

简单来说,大语言模型是一种算法,其目标是理解语言的规则和结构,然后应用这些规则和结构生成有意义的文本。这就像让计算机学会了“文字表达”。

大语言模型训练方式

大语言模型的训练和做游戏很类似。可以把大语言模型想象成一个非常职聪明的单字接龙游戏玩家,它可以处理非常长且复杂的句子,并且猜和准确度很高。

大语言模型经过长时间的单字接龙训练,就象婴儿逐渐长大一样,对文字的理解能力也逐渐提高。它阅读海量语料,不断学习各种词汇、语法和语义知识。这种知识被编码进了数百亿个神经网络参数中,因此,模型开始具备理解和生成语言的能力。

AI 科学家为了让大语言模型变得聪明,会让读很多的书和文章。这些书和文章就是它的学习材料。通过阅读,大语言模型可以学习到很多词汇和句子,并了解它们是如何组合在一起的。

大语言模型产品

国际大语言模型

模型名称 开发企业 国家/地区 核心特点
GPT-4/ChatGPT Open AI 美国 超大规模参数,多模态能力,
广泛商业应用
PaLM/Gemini Google 美国 多模态融合,长文本处理
LLaMA Meta(Facebook) 美国 开源模型,参数规模灵活
Grok 3 xAI(twitter) 美国 超强的推理能力,多模态交互
Claude Anthropic 美国 注重伦理与安全性,支持长上下文
Turing-NLG/Orca Microsoft 美国 集成Azure生态,企业级解决方案美国
Mistral 7B Mistral AI 法国 高效推理,32k上下文,
适合移动和边缘计算场景,开源
Jurassic AI21 Labs 以色列 专注长文本生成与结构化输出
BLOOM Hugging Face 国际协作 多语言开源模型,支持60+语言

中国代表性模型

模型名称 开发企业 核心特点
通义千问Qwen-2.5 阿里云 多模态处理(文本/图像/音频/视频),
开源,实时流式响应
DeepSeek-R1/V3 深度求索 671B参数,数学/代码解方程准确率98%,
API成本为GPT-4的1/7
豆包 字节跳动 短视频脚本爆款率超同业2倍,
支持抖音/小红书/B站多平台生成
GLM-4 智谱AI 学术文献解析准确率95%,
支持国产算力卡部署,开源协议允许商用
混元大模型3.0 腾讯 整合微信社交语料,游戏NPC交互提升
玩家留存率25%,生成“网感”内容
文心一言 百度 中文垂直领域知识库覆盖医疗/能源/政务,
嵌套政府监管接口
盘古大模型 华为 百亿级参数规模,专注于自然语言处理,
在金融、医疗等垂直领域表现优异。
Kimi 月之暗面 支持长上下文,生产PPT
Step-Video 阶跃星辰 全球最大开源视频生成模型(300亿参数),
支持540P/204帧高质量视频
Yi-Large 零一万物 中文SuperCLUE榜首,
支持200k长上下文,适配国际化项目需求
ChatGLM 清华大学 专注于中文对话生成,
优化自然性和连贯性,用户友好设计。

大语言模型应用场景

大语言模型的应用方向呈现出惊人的广泛性,其潜力和多样性令人震惊。与其问“它能做什么“,不如更确切地问”你想让它做什么“。这不仅暗示了大语方模型的巨大灵活性,更体现了其在多元领域中所具有的无限可能

应用场景 适用的大模型 场景描述
文本生成与创作 通用生成模型、
多模态模型
生成文章、新闻、故事、
营销文案、视频脚本等,
支持不同风格和语言的自适应创作。
智能客服与对话 对话优化模型 自然语言交互的客服机器人、
虚拟助手,处理咨询、订单查询、
情感支持等任务。
代码生成与编程辅助 代码专用模型 代码补全、代码翻译、调试建议,
支持多编程语言和复杂逻辑生成。
信息抽取与数据分析 文本处理模型 从大段文本(如合同、报告)中提取关键信息
并对信息数据进行分析并给出策略建议
机器翻译与多语言处理 多语言优化模型 支持高精度跨语言翻译、本地化适配,
覆盖小语种和行业术语。
医疗健康与生物医学 生物医学领域专用模型 分析医学文献、辅助诊断、
药物分子设计、基因组数据处理。
金融与商业决策 金融领域微调模型 风险评估、财报分析、市场预测、自动化报告生成。
教育与学术研究 教育领域适配模型 教学材料生成、论文辅助写作、个性化学习建议。
法律与合规审查 法律文本处理模型 合同条款审查、法律文书生成、法规合规性校验。
多模态生成与交互 视觉-语言融合模型 图文生成、视频内容创作、
跨模态问答(如图像描述、视频字幕生成)。

大语言模型的微调

微调(Fine-tune):指在预训练好的大规模语言模型(如GPT、BERT等)的基础上,针对特定任务或领域的数据进行进一步训练,使模型适应特定需求的过程。其核心目的是利用预训练模型已有的通用语言理解能力,通过少量领域或任务相关的数据调整参数,提升模型在特定场景下的性能。

微调将通用大语言模型“专业化”的核心手段,通过注入领域知识和任务特性,使模型在保留通用能力的同时精准满足实际需求。随着高效微调技术(如PEFT)的发展,其已成为落地AI应用的关键步骤。

大语言模型大多提供了API 操作的微调。例如:对 GPT 模型进行微调

1
2
{"text":"Q:中国首都是哪里?\nA:北京。"}
{"text":"Q:《红楼梦》的作者是谁?\nA:曹雪芹。"}
作者

光星

发布于

2025-03-29

更新于

2025-04-12

许可协议

评论