嵌入模型与向量数据库的关系与使用

嵌入模型(Embedding Model)与向量数据库(Vector Database)是RAG系统中密不可分的两个核心组件。它们的关系可以这样理解:嵌入模型负责“编码”,向量数据库负责“存储与检索”

简单来说,嵌入模型赋予数据“灵魂”(语义),向量数据库则提供了容纳和匹配这些“灵魂”的“家园”。要构建一个基于私有知识的智能应用,两者缺一不可。

阅读更多

自然语言处理使用的WordPiece分词算法详解

WordPiece 是一种广泛应用于自然语言处理(NLP)的子词分词算法,由Google 于 2016 在 BERT 模型中首次引入,旨在解决长尾词汇(如罕见词、复合词)的语义表示问题,同时平衡词表大小与语义覆盖率。现已成为 BERT、MPNet 等主流 Transformer 模型的核心分词技术。

阅读更多