Skip to content

res_kmeans.py对不同的金融产品进行处理,出现sid和pid不是一一对应,一个sid可能对应多个pid,出现sid重复的现象,请问如何解决? #53

@mcstone1314

Description

@mcstone1314

【问题描述】
res_kmeans.py对不同的金融产品进行处理,出现sid和pid不是一一对应,一个sid可能对应多个pid,出现sid重复的现象
【问题举例】
举例:以下4个产品描述的sid均相同:<|sid_begin|><s_a_1661><s_b_472><s_c_7622><|sid_end|>

产品名称为日添利号,以科技创新和消费领域为主要投资方向,风格偏向平衡型,适合追求长期稳健收益的投资者。属于混合类 - 基金类产品,风险等级为R2。产品说明:本产品动态调整股债比例,捕捉市场机会,风险较低。历史收益水平(%)5.12。

产品名称为日添利精选期,主要投资于高收益类资产,投资风格偏稳健,适合风险承受能力较强的投资者。属于FOF - 基金类产品,风险等级为R4。产品说明:本产品属于FOF - 基金类产品,风险等级为R4。历史收益水平(%)7.49。

产品名称为日添利期,投资于稳健债市与流动性资产,风格偏稳健,适合保守型投资者。属于现金管理类 - 基金类产品,风险等级为R1。产品说明:流动性强,风险极低,适合短期闲置资金。历史收益水平(%)1.54。

产品名称为日添利期,聚焦于成长性企业投资,采取灵活配置策略,适合追求稳健增值的投资者。属于FOF - 基金类产品,风险等级为R4。产品说明:本产品属于FOF - 基金类产品,风险等级为R4。历史收益水平(%)6.36。
【诉求】

  1. 对于OpenOneRec来说,为何将上述产品描述差异的产品生成相同sid?
  2. 对于OpenOneRec来说,如何可以有效区分开sid,是产品描述中有效数字尽量不同?不同的描述放在总的产品描述前面还是后面?还是要满足多少字数以上才能区分开?
  3. 对于相似的产品描述,是否只可能s_c不同,s_a和s_b一定相同?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions