2026-03-24发表2026-03-26更新AI / LangChain23 分钟读完 (大约3486个字)

LangChain：检索器和检索增强生成(RAG)

LangChain 的检索器是 RAG（检索增强生成）系统的核心组件，它提供了一套统一的接口来连接各种不同的数据源。无论是向量数据库、搜索引擎，还是传统的数据库，都可以通过这个接口被 LLM 应用轻松调用。

2026-03-16发表2026-03-16更新AI / LangChain22 分钟读完 (大约3242个字)

LangChain：集成向量数据库

在RAG（检索增强生成）中，向量存储库（通常指向量数据库）是连接大模型与外部知识源的核心“记忆中枢”，扮演着核心知识库的角色。它的主要作用是让大模型能够突破自身知识的局限，通过高效的语义搜索，实时、准确地利用私有的或最新的数据来生成更准确、更符合实际的答案。

2026-03-15发表2026-03-15更新AI / LangChain38 分钟读完 (大约5725个字)

LangChain：基于文档结构的的HTML页面文本切割器

将 HTML 文档分割成易于管理的块对于各种文本处理任务至关重要，例如自然语言处理、搜索索引等。 LangChain 提供的三种不同的文本分割器，可以使用它们来有效地分割 HTML 内容。

2026-03-12发表2026-03-12更新AI / LangChain16 分钟读完 (大约2377个字)

LangChain：基于文档结构的的Code代码文本切割器

代码文本分割器集成指南。根据编程代码语言自己的风格对 Code 进行分隔，可以切割的更完整，大模型可以更好的理解代码逻辑。

2026-02-26发表2026-03-04更新AI / LangChain13 分钟读完 (大约1917个字)

LangChain：基于句子语义的文本分割器SentenceTransformersTokenTextSplitter

基于句子语义切割的文本切割尽可能的保留了句子的完整语义。SentenceTransformersTokenTextSplitter分割器通过 model_name参数指定预训练模型的名称，这个模型通常对应一个特定的分词器。

Splitting by token > SentenceTransformers，SentenceTransformersTokenTextSplitter

2026-02-26发表2026-03-04更新AI / LangChain33 分钟读完 (大约4963个字)

LangChain：根据tokens分割文本和文本分割器集成

大语言模型存在Token数量限制，不应超出该限制（如 GPT-4 Turbo 支持 128K Token），超出限制会导致截断或报错。

LangChain Text Splitters(文本分割器指南)

2026-02-26发表2026-02-28更新AI / LangChain20 分钟读完 (大约3040个字)

LangChain：基于自然语言处理库NLTK的结构化文本切割器

NLTKTextSplitter 是基于自然语言处理库 NLTK 实现的结构化文本分割工具，专为处理英文文本设计。其核心价值在于替代朴素的分隔符切割（如"\n\n"），通过语言学规则实现符合语义逻辑的文本分块（先识别出文本中的句子边界，然后再将这些句子组合成符合大小要求（如 Token 数量）的文本块）。

2026-02-25发表2026-03-12更新AI / LangChain18 分钟读完 (大约2667个字)

LangChain：基于文档结构的的Markdown、JSON文本切割

有些文档具有固有的结构，例如HTML、Markdown或JSON文件。在这种情况下，基于文档结构进行拆分往往是有益的，因为这种结构通常能自然地组合语义相关的文本。

文档结构切割器：Document structure-based

2026-02-24发表2026-02-26更新AI / LangChain6 分钟读完 (大约971个字)

LangChain：基于文本结构的的文本切割器

文本自然地被组织为段落、句子和单词等层级单元。我们可以利用这种固有结构来指导分割策略，从而创建既能保持自然语言流畅性、又能维持分块内语义连贯性、还能适应不同文本粒度的分块。

LangChain 的递归字符文本分割器（RecursiveCharacterTextSplitter）实现了这一理念。

2026-02-20发表2026-02-26更新AI / LangChain15 分钟读完 (大约2290个字)

LangChain：基于长度的文本切割器

大语言模型存在Token数量限制，不应超出该限制。因此，在分割文本成块时，需要计算好Token的数量。市面上存在多种tokenizer，计算文本token数量时，应使用与语言模型相匹配的tokenizer。