向量数据库介绍
向量数据库(Vector Database)是近年来随着大语言模型(LLM)和语义搜索发展而火起来的一种新型数据库。它的目标是支持基于“语义相似度”的高效搜索,与传统数据库按关键字精确匹配不同。
🧠 一、什么是“向量”?
在 AI/NLP 中,一段文本、图像、音频都可以被编码为一个高维的浮点数数组,比如:
1"Java 是一种面向对象的编程语言" → [0.12, -0.33, 0.88, ..., 0.03] // 1536维
这个过程叫做 Embedding(嵌入)
转换之后的向量保留了原始内容的语义信息
两个意思相近的句子,它们的向量会在高维空间中非常接近
📚 二、向量数据库 VS 传统数据库
特点
传统数据库 (MySQL)
向量数据库 (Weaviate/Pinecone)
存储的数据
字符串、数字等
高维向量(float 数组)
支持的搜索方式
精确匹配、模糊匹配
向量相似度搜索(余弦/欧几里得)
应用场景
业务数据管理
语义搜索、图像检索、文档问答
🔍 三、向量数据库的核心功能✅ ...