本项目是一个面向大模型应用开发者的RAG(检索增强生成)技术全栈教程,旨在通过体系化的学习路径和动手实践项目,帮助开发者掌握基于大语言模型的RAG应用开发技能,构建生产级的智能问答和知识检索系统。
主要内容包括:
- RAG技术基础:深入浅出地介绍RAG的核心概念、技术原理和应用场景
- 数据处理全流程:从数据加载、清洗到文本分块的完整数据准备流程
- 索引构建与优化:向量嵌入、多模态嵌入、向量数据库构建及索引优化技术
- 检索技术进阶:混合检索、查询构建、Text2SQL等高级检索技术
- 生成集成与评估:格式化生成、系统评估与优化方法
- 项目实战:从基础到进阶的完整RAG应用开发实践
随着大语言模型的快速发展,RAG技术已成为构建智能问答系统、知识检索应用的核心技术。然而,现有的RAG教程往往零散且缺乏系统性,初学者难以形成完整的技术体系认知。
本项目从实践出发,结合最新的RAG技术发展趋势,构建了一套完整的RAG学习体系,帮助开发者:
- 系统掌握RAG技术的理论基础和实践技能
- 理解RAG系统的完整架构和各组件的作用
- 具备独立开发RAG应用的能力
- 掌握RAG系统的评估和优化方法
本项目适合以下人群学习:
- 具备Python编程基础,对RAG技术感兴趣的开发者
- 希望系统学习RAG技术的AI工程师
- 想要构建智能问答系统的产品开发者
- 对检索增强生成技术有学习需求的研究人员
前置要求:
- 掌握Python基础语法和常用库的使用
- 能够简单使用docker
- 了解基本的LLM概念(推荐但非必需)
- 具备基础的Linux命令行操作能力
- 体系化学习路径:从基础概念到高级应用,构建完整的RAG技术学习体系
- 理论与实践并重:每个章节都包含理论讲解和代码实践,确保学以致用
- 多模态支持:不仅涵盖文本RAG,还包括多模态嵌入和检索技术
- 工程化导向:注重实际应用中的工程化问题,包括性能优化、系统评估等
- 丰富的实战项目:提供从基础到进阶的多个实战项目,帮助巩固学习成果
第一章 解锁RAG 📖 查看章节
第二章 数据准备 📖 查看章节
第三章 索引构建 📖 查看章节
第四章 检索优化 📖 查看章节
第五章 生成集成 📖 查看章节
- 格式化生成 - 结构化输出与格式控制
第六章 RAG系统评估 📖 查看章节
第七章 高级RAG架构(拓展选修篇) 📖 查看章节
第八章 项目实战一(基础篇) 📖 查看章节
第九章 项目实战一优化(选修篇) 📖 查看章节
第十章 项目实战二(选修篇) 📖 查看章节 规划中
all-in-rag/
├── docs/ # 教程文档
├── code/ # 代码示例
├── data/ # 示例数据
├── models/ # 预训练模型
└── README.md # 项目说明
核心贡献者
- 尹大吕-项目负责人(项目发起人与主要贡献者)
- 感谢 @Sm1les 对本项目的帮助与支持
- 感谢所有为本项目做出贡献的开发者们
- 感谢开源社区提供的优秀工具和框架支持
- 如果有任何想法可以联系我们,也欢迎大家多多提出 issue
- 特别感谢以下为教程做出贡献的开发者!
Made with contrib.rocks.
我们欢迎所有形式的贡献,包括但不限于:
- 🚨 Bug报告:发现问题请提交 Issue
- 💭 功能建议:有好的想法欢迎在 Discussions 中讨论
- 📚 文档改进:帮助完善文档内容和示例代码
- ⚡ 代码贡献:提交 Pull Request 改进项目
- Fork 本仓库
- 创建你的特性分支 (
git checkout -b feature/AmazingFeature
) - 提交你的修改 (
git commit -m 'Add some AmazingFeature'
) - 推送到分支 (
git push origin feature/AmazingFeature
) - 打开一个 Pull Request
如果这个项目对你有帮助,请给我们一个 ⭐️
让更多人发现这个项目(护食?发来!)
本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。