LlamaIndex 入门介绍
什么是 LlamaIndex
LlamaIndex(原 GPT Index)是一个专注于数据连接与检索的框架,帮助 LLM 应用高效连接外部数据源、构建索引并执行智能查询。与 LangChain 的「链式编排」不同,LlamaIndex 更强调数据优先:如何加载、索引、检索数据,再交给 LLM 生成。
为什么选择 LlamaIndex
- 数据连接:内置 100+ 数据连接器(文件、数据库、API、Notion 等)
- 索引与检索:向量索引、树索引、知识图谱等,检索策略丰富
- 查询引擎:从简单检索到多步推理,支持复杂问答
- RAG 友好:专为 RAG 场景优化,与向量数据库、Embedding 深度集成
- Agent 支持:支持工具与 Agent 工作流,与 LangChain 互补
核心概念
1. 数据连接器(Connectors)
从各种来源加载数据:PDF、网页、数据库、Slack、Google Drive 等。
2. 索引(Index)
将文档转化为可检索结构:向量索引、树索引、关键词索引、知识图谱索引等。
3. 查询引擎(Query Engine)
接收用户问题,基于索引检索相关内容,组装提示,调用 LLM 生成回答。
4. Agent 与工具
LlamaIndex 的 Agent 可调用工具(如检索、计算),实现多步推理。
LlamaIndex vs LangChain
| 维度 | LlamaIndex | LangChain |
|---|---|---|
| 定位 | 数据连接与检索 | 通用链式编排 |
| 强项 | RAG、数据索引、查询优化 | 链、Agent、工具生态 |
| 适用 | 知识库、文档问答、数据应用 | 复杂工作流、多工具 Agent |
| 学习曲线 | 数据流清晰 | 概念较多 |
两者可配合使用:LlamaIndex 负责数据层,LangChain 负责编排层。
典型应用
- 企业知识库问答
- 文档分析与总结
- 代码库检索与问答
- 多 数据源统一检索(数据库 + 文档 + API)
与 RAG、Embedding、向量库的闭环
LlamaIndex 与 RAG、Embedding、向量数据库 天然契合:用 Embedding 做向量化,用向量库存储,用 LlamaIndex 组织数据流与检索逻辑。
深入学习
想全面了解 LlamaIndex 的架构、索引类型、查询引擎及与 RAG 的集成?请查看 LlamaIndex 深度解析。