- 版本:0.0.* (开发中)
- 急需核心功能:
QA & embedding 异步执行、chunk管理
- QA & embedding 异步执行
- 现状:同步处理,上传文档时立即执行 split→QA生成→embedding
- 优化:将split后的处理流程改为异步
- chunk管理
- 问题:缺乏文档-chunk映射关系,无法编辑单个chunk
- 方案:
- ES存储chunk时同步记录映射关系到MySQL
- 实现类似ragflow的数据集管理功能
- 稀疏向量(关键词)检索
- 现状:仅支持稠密向量
- 目标:增加稀疏向量检索路径,提升召回率
- excel(csv) QA对导入
- 基础:eino已支持excel解析
- 实现:快速接入excel/csv格式QA对导入
- 多语言支持(i18n)
- 目标:支持界面和内容的国际化
- Agentic RAG
- 功能:通过智能体实现动态规划和自主决策
- 解析优化
- 现状:基础pdf/txt/html解析
- 优化:
- 引入第三方API提升解析质量(如mineru)
- 新增ppt/docx等格式支持
- 图片解析
- 用户自定义文档解析逻辑
-
添加用户体系
- 问题:知识库全局可见
- 方案:
- 用户登录/鉴权
- 知识库用户隔离
-
用户配置分离
- 功能:
- 自定义模型提供商
- 个人API_KEY管理
- 功能:
- 多数据库支持
- 现状:只支持 es
- 优化:支持postgre、milvus等向量数据库