LLM:大语言模型概述
LLM(Large Language Model):大语言模型。
OpenAI在2022年11月30日发布了基于GPT模型的聊天机器人ChatGPT,进入到2023年是大语言模型爆发的元年。
注:读书笔记,参考自《LangChain 入门指南:构建高可复用、可扩展的LLM应用程序》
大语言模型起源
人类交流的语言,并非且单纯由文字构成,语言中富含隐喻、讽刺和象征等复杂的含义,也经常引用社会、文化和历史知识,这些都使得理解语言成为一项高度复杂的科学。
随着计算机技术的发展,科学家们想到模拟人类脑神经元结构来创造一种人工智能,让人工智能从大量的文本数据中自己学习和总结语言的规则与模式。
在机器学习方法中,神经网络在处理复杂的模式识别任务(如图像和语音识别等)上展示出了强大的能力。研究者们开始尝试使用神经网络来处理语言理解任务,进而诞生了大语言模型。
大语言模型是一种建立在 Transformer 架构上的大规模神经网络程序,其功能主要是理解和处理各种语言文字。
简单来说,大语言模型是一种算法,其目标是理解语言的规则和结构,然后应用这些规则和结构生成有意义的文本。这就像让计算机学会了“文字表达”。
大语言模型训练方式
大语言模型的训练和做游戏很类似。可以把大语言模型想象成一个非常职聪明的单字接龙游戏玩家,它可以处理非常长且复杂的句子,并且猜和准确度很高。
大语言模型经过长时间的单字接龙训练,就象婴儿逐渐长大一样,对文字的理解能力也逐渐提高。它阅读海量语料,不断学习各种词汇、语法和语义知识。这种知识被编码进了数百亿个神经网络参数中,因此,模型开始具备理解和生成语言的能力。
AI 科学家为了让大语言模型变得聪明,会让读很多的书和文章。这些书和文章就是它的学习材料。通过阅读,大语言模型可以学习到很多词汇和句子,并了解它们是如何组合在一起的。
大语言模型产品
国际大语言模型
模型名称 | 开发企业 | 国家/地区 | 核心特点 |
---|---|---|---|
GPT-4/ChatGPT | Open AI | 美国 | 超大规模参数,多模态能力, 广泛商业应用 |
PaLM/Gemini | 美国 | 多模态融合,长文本处理 | |
LLaMA | Meta(Facebook) | 美国 | 开源模型,参数规模灵活 |
Grok 3 | xAI(twitter) | 美国 | 超强的推理能力,多模态交互 |
Claude | Anthropic | 美国 | 注重伦理与安全性,支持长上下文 |
Turing-NLG/Orca | Microsoft | 美国 | 集成Azure生态,企业级解决方案美国 |
Mistral 7B | Mistral AI | 法国 | 高效推理,32k上下文, 适合移动和边缘计算场景,开源 |
Jurassic | AI21 Labs | 以色列 | 专注长文本生成与结构化输出 |
BLOOM | Hugging Face | 国际协作 | 多语言开源模型,支持60+语言 |
中国代表性模型
模型名称 | 开发企业 | 核心特点 |
---|---|---|
通义千问Qwen-2.5 | 阿里云 | 多模态处理(文本/图像/音频/视频), 开源,实时流式响应 |
DeepSeek-R1/V3 | 深度求索 | 671B参数,数学/代码解方程准确率98%, API成本为GPT-4的1/7 |
豆包 | 字节跳动 | 短视频脚本爆款率超同业2倍, 支持抖音/小红书/B站多平台生成 |
GLM-4 | 智谱AI | 学术文献解析准确率95%, 支持国产算力卡部署,开源协议允许商用 |
混元大模型3.0 | 腾讯 | 整合微信社交语料,游戏NPC交互提升 玩家留存率25%,生成“网感”内容 |
文心一言 | 百度 | 中文垂直领域知识库覆盖医疗/能源/政务, 嵌套政府监管接口 |
盘古大模型 | 华为 | 百亿级参数规模,专注于自然语言处理, 在金融、医疗等垂直领域表现优异。 |
Kimi | 月之暗面 | 支持长上下文,生产PPT |
Step-Video | 阶跃星辰 | 全球最大开源视频生成模型(300亿参数), 支持540P/204帧高质量视频 |
Yi-Large | 零一万物 | 中文SuperCLUE榜首, 支持200k长上下文,适配国际化项目需求 |
ChatGLM | 清华大学 | 专注于中文对话生成, 优化自然性和连贯性,用户友好设计。 |
大语言模型应用场景
大语言模型的应用方向呈现出惊人的广泛性,其潜力和多样性令人震惊。与其问“它能做什么“,不如更确切地问”你想让它做什么“。这不仅暗示了大语方模型的巨大灵活性,更体现了其在多元领域中所具有的无限可能。
应用场景 | 适用的大模型 | 场景描述 |
---|---|---|
文本生成与创作 | 通用生成模型、 多模态模型 |
生成文章、新闻、故事、 营销文案、视频脚本等, 支持不同风格和语言的自适应创作。 |
智能客服与对话 | 对话优化模型 | 自然语言交互的客服机器人、 虚拟助手,处理咨询、订单查询、 情感支持等任务。 |
代码生成与编程辅助 | 代码专用模型 | 代码补全、代码翻译、调试建议, 支持多编程语言和复杂逻辑生成。 |
信息抽取与数据分析 | 文本处理模型 | 从大段文本(如合同、报告)中提取关键信息 并对信息数据进行分析并给出策略建议 |
机器翻译与多语言处理 | 多语言优化模型 | 支持高精度跨语言翻译、本地化适配, 覆盖小语种和行业术语。 |
医疗健康与生物医学 | 生物医学领域专用模型 | 分析医学文献、辅助诊断、 药物分子设计、基因组数据处理。 |
金融与商业决策 | 金融领域微调模型 | 风险评估、财报分析、市场预测、自动化报告生成。 |
教育与学术研究 | 教育领域适配模型 | 教学材料生成、论文辅助写作、个性化学习建议。 |
法律与合规审查 | 法律文本处理模型 | 合同条款审查、法律文书生成、法规合规性校验。 |
多模态生成与交互 | 视觉-语言融合模型 | 图文生成、视频内容创作、 跨模态问答(如图像描述、视频字幕生成)。 |
大语言模型的微调
微调(Fine-tune):指在预训练好的大规模语言模型(如GPT、BERT等)的基础上,针对特定任务或领域的数据进行进一步训练,使模型适应特定需求的过程。其核心目的是利用预训练模型已有的通用语言理解能力,通过少量领域或任务相关的数据调整参数,提升模型在特定场景下的性能。
微调将通用大语言模型“专业化”的核心手段,通过注入领域知识和任务特性,使模型在保留通用能力的同时精准满足实际需求。随着高效微调技术(如PEFT)的发展,其已成为落地AI应用的关键步骤。
大语言模型大多提供了API 操作的微调。例如:对 GPT 模型进行微调
1 | {"text":"Q:中国首都是哪里?\nA:北京。"} |