2026-03-27发表2026-04-11更新AI / LangChain13 分钟读完 (大约1884个字)

LangChain：检索器类型与使用方法

在 LangChain 中，检索器是一个遵循统一接口的组件：输入一个查询（字符串），输出一个文档（Document）列表。

这个简单的接口极大地简化了信息检索的复杂性。你可以将任何能够返回相关文档的系统（如搜索引擎、数据库、向量存储）包装成一个检索器，然后在你的 LangChain 应用中以统一的方式调用它。

2026-03-24发表2026-04-11更新AI / LangChain23 分钟读完 (大约3486个字)

LangChain：检索器之知识库和检索增强生成(RAG)

LangChain 的检索器是 RAG（检索增强生成）系统的核心组件，它提供了一套统一的接口来连接各种不同的数据源。无论是向量数据库、搜索引擎，还是传统的数据库，都可以通过这个接口被 LLM 应用轻松调用。

2026-03-22发表2026-03-30更新AI / LangChain8 分钟读完 (大约1260个字)

LangChain：调用向量存储库的搜索方法

在 LangChain 中，向量存储库（VectorStore）提供了统一的接口，其中包含多种搜索方法。这些方法用于根据语义或向量来检索最相似的文档。下面将逐一介绍常用的搜索方法及其特点。

2026-03-22发表2026-04-11更新AI / NLP17 分钟读完 (大约2609个字)

嵌入模型与向量数据库的关系与使用

嵌入模型（Embedding Model）与向量数据库（Vector Database）是RAG系统中密不可分的两个核心组件。它们的关系可以这样理解：嵌入模型负责“编码”，向量数据库负责“存储与检索”。

简单来说，嵌入模型赋予数据“灵魂”（语义），向量数据库则提供了容纳和匹配这些“灵魂”的“家园”。要构建一个基于私有知识的智能应用，两者缺一不可。

2026-03-16发表2026-04-11更新AI / LangChain22 分钟读完 (大约3242个字)

LangChain：集成向量数据库

在RAG（检索增强生成）中，向量存储库（通常指向量数据库）是连接大模型与外部知识源的核心“记忆中枢”，扮演着核心知识库的角色。它的主要作用是让大模型能够突破自身知识的局限，通过高效的语义搜索，实时、准确地利用私有的或最新的数据来生成更准确、更符合实际的答案。

2026-03-15发表2026-04-11更新AI / LangChain38 分钟读完 (大约5725个字)

LangChain：基于文档结构的的HTML页面文本切割器

将 HTML 文档分割成易于管理的块对于各种文本处理任务至关重要，例如自然语言处理、搜索索引等。 LangChain 提供的三种不同的文本分割器，可以使用它们来有效地分割 HTML 内容。

2026-03-13发表2026-03-15更新AI22 分钟读完 (大约3226个字)

OpenClaw、Skills、Agent、MCP、RAG概念及角色、相互之间的关系

理解解OpenClaw、Agent、Skills、MCP、RAG的概念，各自扮演的角色，相互之间的关系。

2026-03-12发表2026-04-11更新AI / LangChain16 分钟读完 (大约2377个字)

LangChain：基于文档结构的的Code代码文本切割器

代码文本分割器集成指南。根据编程代码语言自己的风格对 Code 进行分隔，可以切割的更完整，大模型可以更好的理解代码逻辑。

2026-03-04发表2026-03-05更新AI / NLP30 分钟读完 (大约4502个字)

自然语言处理使用的WordPiece分词算法详解

WordPiece 是一种广泛应用于自然语言处理（NLP）的子词分词算法，由Google 于 2016 在 BERT 模型中首次引入，旨在解决长尾词汇（如罕见词、复合词）的语义表示问题，同时平衡词表大小与语义覆盖率。现已成为 BERT、MPNet 等主流 Transformer 模型的核心分词技术。

2026-02-26发表2026-03-04更新AI / LangChain13 分钟读完 (大约1917个字)