Skip to content

Latest commit

 

History

History
65 lines (53 loc) · 1.68 KB

File metadata and controls

65 lines (53 loc) · 1.68 KB

项目路线图

当前状态

  • 版本:0.0.* (开发中)
  • 急需核心功能:QA & embedding 异步执行chunk管理

版本规划

0.1.0 - 核心功能完善

异步处理

  • QA & embedding 异步执行
    • 现状:同步处理,上传文档时立即执行 split→QA生成→embedding
    • 优化:将split后的处理流程改为异步

数据管理

  • chunk管理
    • 问题:缺乏文档-chunk映射关系,无法编辑单个chunk
    • 方案:
      1. ES存储chunk时同步记录映射关系到MySQL
      2. 实现类似ragflow的数据集管理功能

检索增强

  • 稀疏向量(关键词)检索
    • 现状:仅支持稠密向量
    • 目标:增加稀疏向量检索路径,提升召回率

数据导入

  • excel(csv) QA对导入
    • 基础:eino已支持excel解析
    • 实现:快速接入excel/csv格式QA对导入

国际化

  • 多语言支持(i18n)
    • 目标:支持界面和内容的国际化

0.2.0 - 进阶功能

智能增强

  • Agentic RAG
    • 功能:通过智能体实现动态规划和自主决策

文档解析

  • 解析优化
    • 现状:基础pdf/txt/html解析
    • 优化:
      1. 引入第三方API提升解析质量(如mineru)
      2. 新增ppt/docx等格式支持
      3. 图片解析
      4. 用户自定义文档解析逻辑

用户系统

  • 添加用户体系

    • 问题:知识库全局可见
    • 方案:
      1. 用户登录/鉴权
      2. 知识库用户隔离
  • 用户配置分离

    • 功能:
      1. 自定义模型提供商
      2. 个人API_KEY管理

多向量库支持

  • 多数据库支持
    • 现状:只支持 es
    • 优化:支持postgre、milvus等向量数据库