Andrew's Blog

本文是 RAG 实战系列第四篇，承接第三篇的检索与重排。上一篇结束时，我们已经拿到了最相关的若干 Chunk（或整页），拼成了一段 RAG Context。这一篇讲的是：把 Context 和问题交给 LLM，如何设计 Prompt、如何处理不同类型的问题、如何拿到结构化答案、以及怎么让 LLM 不瞎编。

本系列基于开源项目 IlyaRice/RAG-Challenge-2 的工程实践总结。

阅读全文 »

RAG实战（三）-检索与重排

发表于 2026-03-07 更新于 2026-03-14 分类于技术文章本文字数： 5.6k 阅读时长 ≈ 20 分钟

本文是 RAG 实战系列第三篇，承接第二篇的向量化与索引构建。上一篇结束时，我们已经为每个文档构建好了两套索引：FAISS 向量语义索引和 BM25 关键词稀疏索引。这一篇讲的是：用户提问时，如何从这些索引里找到最相关的 Chunk，并进一步提升检索质量。

本系列基于开源项目 IlyaRice/RAG-Challenge-2 的工程实践总结。

阅读全文 »

RAG实战（二）-向量化与索引构建

发表于 2026-03-06 更新于 2026-03-14 分类于技术文章本文字数： 4.4k 阅读时长 ≈ 16 分钟

本文是 RAG 实战系列第二篇，承接第一篇的文档解析与切块。上一篇结束时，我们已经得到了一批带元信息的 Chunk。这一篇讲的是：如何把这批 Chunk 变成可以被快速检索的索引。

本系列基于开源项目 IlyaRice/RAG-Challenge-2 的工程实践总结。

阅读全文 »

RAG实战（一）-文档解析与文本切块

发表于 2026-03-05 更新于 2026-03-14 分类于技术文章本文字数： 7.7k 阅读时长 ≈ 28 分钟

本文是 RAG 实战系列第一篇，介绍 RAG 流水线的第一个环节：如何把原始 PDF 文档解析成可检索的文本片段。很多人忽视这一步，但实际上文档解析和切块的质量直接决定了整个 RAG 系统的上限。

本系列基于开源项目 IlyaRice/RAG-Challenge-2 的工程实践总结。

阅读全文 »

RAG入门-什么是RAG

发表于 2026-03-04 更新于 2026-03-14 分类于技术文章本文字数： 3.3k 阅读时长 ≈ 12 分钟

这篇文章是我学习 RAG 过程中整理的入门笔记，主要参考了开源项目 IlyaRice/RAG-Challenge-2 ——一个赢得了 Enterprise RAG Challenge 竞赛全部奖项的企业级年报问答系统，以及作者 Ilya Rice 的技术复盘博客 How I Won the Enterprise RAG Challenge。

本文以这个项目为主线，帮助完全没接触过 RAG 的同学快速建立概念框架。

阅读全文 »

SQL基础-开窗函数

发表于 2026-02-20 更新于 2026-02-20 分类于技术文章本文字数： 4.4k 阅读时长 ≈ 16 分钟

最近在复习 SQL 的开窗函数（Window Functions），这是 SQL 中非常强大的高级功能，能在保留每一行原始数据的同时进行分组计算，在数据分析场景中几乎无处不在。排名、累计求和、环比计算等需求都离不开它。内容不少，整理成一份速查手册方便日后回顾。

阅读全文 »