跳到主要内容

LlamaIndex 入门介绍

什么是 LlamaIndex

LlamaIndex(原 GPT Index)是一个专注于数据连接与检索的框架,帮助 LLM 应用高效连接外部数据源、构建索引并执行智能查询。与 LangChain 的「链式编排」不同,LlamaIndex 更强调数据优先:如何加载、索引、检索数据,再交给 LLM 生成。

为什么选择 LlamaIndex

  1. 数据连接:内置 100+ 数据连接器(文件、数据库、API、Notion 等)
  2. 索引与检索:向量索引、树索引、知识图谱等,检索策略丰富
  3. 查询引擎:从简单检索到多步推理,支持复杂问答
  4. RAG 友好:专为 RAG 场景优化,与向量数据库、Embedding 深度集成
  5. Agent 支持:支持工具与 Agent 工作流,与 LangChain 互补

核心概念

1. 数据连接器(Connectors)

从各种来源加载数据:PDF、网页、数据库、Slack、Google Drive 等。

2. 索引(Index)

将文档转化为可检索结构:向量索引、树索引、关键词索引、知识图谱索引等。

3. 查询引擎(Query Engine)

接收用户问题,基于索引检索相关内容,组装提示,调用 LLM 生成回答。

4. Agent 与工具

LlamaIndex 的 Agent 可调用工具(如检索、计算),实现多步推理。

LlamaIndex vs LangChain

维度LlamaIndexLangChain
定位数据连接与检索通用链式编排
强项RAG、数据索引、查询优化链、Agent、工具生态
适用知识库、文档问答、数据应用复杂工作流、多工具 Agent
学习曲线数据流清晰概念较多

两者可配合使用:LlamaIndex 负责数据层,LangChain 负责编排层。

典型应用

  • 企业知识库问答
  • 文档分析与总结
  • 代码库检索与问答
  • 多数据源统一检索(数据库 + 文档 + API)

与 RAG、Embedding、向量库的闭环

LlamaIndex 与 RAGEmbedding向量数据库 天然契合:用 Embedding 做向量化,用向量库存储,用 LlamaIndex 组织数据流与检索逻辑。

深入学习

想全面了解 LlamaIndex 的架构、索引类型、查询引擎及与 RAG 的集成?请查看 LlamaIndex 深度解析

参考资源