12.3.5 高级应用场景——RAG 与多模态：检索增强生成与图文混合

一句话破题

RAG 让 AI 能"查阅资料"后回答问题，多模态让 AI 能"看图说话"——这两项技术大幅扩展了 AI 应用的能力边界。

RAG：检索增强生成

什么是 RAG？

RAG 的核心思想是：先搜索，再回答。这解决了 AI 知识过时、无法访问私有数据等问题。

基础实现

typescript

// app/api/chat/route.ts
import { openai } from '@ai-sdk/openai';
import { streamText } from 'ai';
import { searchDocuments } from '@/lib/search'; // 你的搜索逻辑

export async function POST(req: Request) {
  const { messages } = await req.json();
  
  // 获取用户最新问题
  const lastMessage = messages[messages.length - 1];
  
  // 检索相关文档
  const relevantDocs = await searchDocuments(lastMessage.content);
  
  // 构建上下文
  const context = relevantDocs
    .map((doc) => `---\n${doc.title}\n${doc.content}\n---`)
    .join('\n');

  const result = streamText({
    model: openai('gpt-4o'),
    system: `你是一个知识助手。请根据以下资料回答用户问题。如果资料中没有相关信息，请诚实地说不知道。

参考资料：
${context}`,
    messages,
  });

  return result.toDataStreamResponse();
}

向量搜索

更高级的 RAG 实现会使用向量数据库进行语义搜索：

typescript

import { embed } from 'ai';
import { openai } from '@ai-sdk/openai';

// 生成文本嵌入
async function getEmbedding(text: string) {
  const { embedding } = await embed({
    model: openai.embedding('text-embedding-3-small'),
    value: text,
  });
  return embedding;
}

// 在向量数据库中搜索
async function semanticSearch(query: string) {
  const queryEmbedding = await getEmbedding(query);
  
  // 使用 Pinecone、Supabase Vector 等进行相似度搜索
  const results = await vectorDB.search(queryEmbedding, { topK: 5 });
  
  return results;
}

多模态：图文混合

发送图片给 AI

typescript

// app/api/vision/route.ts
import { openai } from '@ai-sdk/openai';
import { streamText } from 'ai';

export async function POST(req: Request) {
  const { messages } = await req.json();

  const result = streamText({
    model: openai('gpt-4o'), // 支持视觉的模型
    messages: messages.map((m) => ({
      role: m.role,
      content: m.image
        ? [
            { type: 'text', text: m.content },
            { type: 'image', image: m.image }, // base64 或 URL
          ]
        : m.content,
    })),
  });

  return result.toDataStreamResponse();
}

前端上传图片

tsx

'use client';

import { useChat } from 'ai/react';
import { useState } from 'react';

export default function VisionChat() {
  const { messages, append, isLoading } = useChat();
  const [input, setInput] = useState('');
  const [image, setImage] = useState<string | null>(null);

  const handleImageUpload = (e: React.ChangeEvent<HTMLInputElement>) => {
    const file = e.target.files?.[0];
    if (file) {
      const reader = new FileReader();
      reader.onloadend = () => {
        setImage(reader.result as string);
      };
      reader.readAsDataURL(file);
    }
  };

  const handleSubmit = () => {
    if (!input.trim() && !image) return;
    
    append({
      role: 'user',
      content: input,
      // 扩展字段，需要在 API 端处理
      data: { image },
    });
    
    setInput('');
    setImage(null);
  };

  return (
    <div>
      {/* 消息列表 */}
      
      <div className="flex gap-2 p-4">
        <input
          type="file"
          accept="image/*"
          onChange={handleImageUpload}
          className="hidden"
          id="image-upload"
        />
        <label htmlFor="image-upload" className="cursor-pointer">
          📎
        </label>
        
        {image && (
          <img src={image} alt="上传预览" className="w-16 h-16 object-cover rounded" />
        )}
        
        <input
          value={input}
          onChange={(e) => setInput(e.target.value)}
          placeholder="描述这张图片..."
          className="flex-1 p-2 border rounded"
        />
        
        <button onClick={handleSubmit} disabled={isLoading}>
          发送
        </button>
      </div>
    </div>
  );
}

AI 协作指南

核心意图：让 AI 帮你实现 RAG 或多模态功能。
需求定义公式：
- RAG："请帮我实现一个基于向量搜索的 RAG 系统，使用 Supabase 作为向量数据库，用户可以上传 PDF 文档并进行问答。"
- 多模态："请帮我实现一个支持图片上传的 AI 聊天界面，用户可以上传图片并询问图片内容。"
关键术语：RAG、embedding、向量搜索、多模态 (multimodal)、vision

避坑指南

RAG 的检索质量决定回答质量：垃圾进，垃圾出。
图片大小限制：大图片会消耗大量 Token，建议压缩后上传。
向量数据库选择：考虑成本、性能和易用性的平衡。
上下文窗口限制：检索的文档不能太长，否则会超出模型限制。

1.1 编程已死，编程永生：从 Coder 到 Commander

1.2 破除迷信：不懂英文、数学不好也能写代码吗？

1.3 工具初探：AI 编程工具选型指南

1.4 Vibe vs Spec：AI 编程的两种方式

1.5 Hello World：你的第一个 3 分钟 AI 网页

2.1 思维升级：从"我想做一个App"到"我要解决一个问题"

2.2 逆向思维：先想清楚什么会让项目失败

2.3 减法思维：MVP不是「最小功能」，而是「最小可验证价值」

2.4 故事思维：把用户当作故事的主角

2.5 灵魂三问：开发前必须回答的问题

2.6 场景应用：这些思维工具不只是用来「做产品」的

2.7 问题发现：如何找到值得解决的问题

2.8 本章总结：产品经理的思维工具箱

附录：心法篇补充材料

3.1 提示词工程基础：Context is King

3.2 结构化提示词框架

3.3 进阶提示技巧

3.4 编写你的第一份 PRD

3.5 迭代对话的艺术

3.6 当 AI 不听话时

3.7 本章总结与实战演练

附录：常用 Prompt 模板库

4.1 开始之前：整合你的准备工作

4.2 第一轮：搭建页面框架

4.3 第二轮：实现核心功能

4.4 第三轮：让数据活起来

4.5 Debug 实战：当 AI 代码报错时

4.6 收尾与回顾

5.1 后悔药：代码改崩了怎么办

5.2 见世面：把网页发到互联网上

5.3 护城河：AI 时代的安全意识

5.4 再进化：项目的持续迭代与优化

5.5 知边界：Vibe Coding 的能与不能

5.6 启程前：本章总结与进阶预告

0.0 进阶版要学什么——课程概念定义

0.1 计算机基础知识

0.2 命令行：与计算机的直接对话

0.3 前端基础：构建用户眼中的世界

0.3.5 你的电脑如何上网——网络基础：HTTP/HTTPS/域名/端口/API 概念

0.4 搭建你的编程工作室——开发环境配置：Node.js、包管理器与工具链

0.5 从随心所欲到规行矩步——JS → TS 思维转换

0.6 别让你的网站裸奔——开发安全底线

0.7 把程序装进集装箱——Docker 核心概念

1.1 先让 Hello World 跑起来——工具装配与最小项目验证：Node/VSCode/Cursor/Claude；跑通 Next.js

1.2 你不是一个人在战斗——Vibe Coding 心法：从"写代码"到"指挥 AI 写代码"

1.5 全副武装你的开发环境——工具链与环境：IDE/Git/Node.js/数据库/部署平台

2.1 为什么我们选这套装备——Next.js + TS + Prisma + OSS 架构全景

2.2 你的网页何时被创建——Next.js 渲染策略全景

2.3 用对新特性才不香——Next.js 核心概念深入：App Router/RSC/Server Actions 实战

2.4 前后端如何高效协作——接口契约/API Route；请求/响应、幂等、流式返回

2.5 代码为什么会越写越乱——架构分层详解：页面/路由、API/HTTP、服务层/业务、数据层/Prisma+SQL

2.6 全家桶服务好不好用——拓展：Supabase适用与取舍

3.1 你的文件目录就是网站地图——App Router：文件路由与数据获取

3.2 像搭乐高一样构建页面——前端构建块：组件/状态/路由/数据获取/错误与空态

3.4 告别选择困难症——Tailwind + shadcn/ui：统一设计体系与组件库

3.5 别靠猜来找 Bug——Debug 实战：断点/Network/日志/错误边界

3.6 别把厨房建在客厅——API Route 与服务层分离：输入/输出、幂等、鉴权、错误与重试

3.7 崩了和没数据时怎么办——可用性：错误/空态/加载骨架；Error Boundary

3.8 别让少数人用不了你的产品——可访问性/UX 原则/设计令牌/颜色与对比度/i18n

4.1 数据关系要先理清——数据建模与 ER 图：实体/关系/约束；面向变更与演进

4.2 数据库到底在忙什么——关系型数据库：CRUD/索引/事务

4.3 如何命令数据库干活——SQL 基础操作：表/行/列、主键/外键、索引、事务、JOIN、CRUD

4.4 告别手写 SQL——Prisma 实战应用

4.5 线上数据库动手术——数据库迁移策略：生产环境的变更管理

4.6 如何批量制造假数据——种子数据高级应用：多环境数据管理

4.7 数据打架了怎么办——数据同步：幂等/冲突处理

4.8 拓展：Supabase 为何如此强大——存储与认证联动

5.1 先把想做的说明白——AI 时代产品开发理念：从传统开发到 AI 协助全流程

5.2 为什么说先写文档再编码——PRD 基础

5.3 不会提需求怎么办——让 AI 帮你问对问题

5.4 你写的文档 AI 看得懂吗——AI 可读的 PRD 文档生成：结构化与机器友好

5.5 先讲故事再列清单——用户故事、问题陈述、范围与优先级矩阵

5.6 方案是用来减风险的——技术方案要点：接口/数据表/边界/风险；单人自评

5.7 别让文档烂尾——文档即代码：目录与 PR 同步更新

6.1 别再从零开始写登录注册——NextAuth 快速上手：Google/GitHub 登录实战

6.2 你是谁与你能做什么——认证与授权安全实践

6.3 守好程序的大门——API 安全防护实践

6.4 认识常见的网络小偷——常见 Web 安全威胁与防护

6.5 接入微信/QQ 登录——第三方登录集成深度：微信/QQ/钉钉/企业微信

7.1 接口是合同不是暗语——HTTP 与 API：方法、JSON、分页与过滤、幂等与重试

12.3.5 高级应用场景——RAG 与多模态：检索增强生成与图文混合

一句话破题

RAG：检索增强生成

什么是 RAG？

基础实现

向量搜索