当前速看：百融云AI大模型的“向量”战争_时事

(资料图片仅供参考)

CPO龙头内部强弱切换之日，伴随市场成交重回万亿；绕不开的先进制程向大陆放开代工，瞬间砸了28nm晶圆厂的饭碗；武皇后说着AI仍偏主题性，却又告诉光模块可以联手激光雷达。魂回谷底的公募发行份额，让敢AI敢恨的持仓者念出经济继续偏弱的诅咒；徘徊在总量边缘的权重板块，哭丧着重读黑板上的赫然：“要想实现全年5%，同志们仍需奋斗。”

好消息是大模型终于动了，坏消息是血包不够充足。当企鹅暂时抛下王者荣耀，推出MaaS全家桶，我们才意识到红衣教主所言非虚：“没有任何一个大模型能在中国一统江湖。”6月底的公募耐不住寂寞，为了中报的净值毅然加入AI抱团股。

大模型俨然为数不多有产品、有订单、有容量的选择标的。当基础知识不断被深挖，象牙塔里的数学理论，显然不如看几篇对投资有帮助的《挑干的唠》。既然如此，大模型还有哪些没被重视的技术根基？我们也尝试用普通话表述。

都知道数据是训练大模型的最关键要素，但GPT-4所用的英文数据集显然质量比中文高，但中国大模型也有独特的数据需要投喂，比如应试教育题库。举个例子，现在在线教育题库大约1.5亿道题，但由于中国题库的数据没有经过文本化处理，大多数题库仍然以图片格式存在，所以多模态大模型就势在必行。而且大模型不光要知道1+1=2，更要知道1+1为什么=2。由此而来，“向量数据”对大模型就更加意义非凡。同样的情况，在金融AI领域只多不少。

比教育AI更复杂的是，金融业的非文本化数据量更多。举个例子，用户的洗钱行为和客户背景调查，大多数以相邻关系及连通关系查询，所以图谱化的数据构成了金融业的“图数据库”；此外，股市期市的日K线图构成完成的单日交易信息记录，这就是金融业的“时序数据库”；而一些企业的股权钩稽关系，母子公司的业务往来和占款情况，又往往以“树状”数据进行存储。所以这些数据如果以文本的形式直接训练金融AI大模型，会因为维度太高导致机器学习效率降低，这个时候就需要能压缩模态数据的“向量数据”。这很可能是@百融云-W（6608.HK）这家金融AI+SaaS企业，能做金融AI大模型的独特优势。

那作为以银行为主要客户的百融云，它的AI大模型会用向量信息解决什么问题呢？最简单的就是帮银行在存款账户开户端，区分好人与坏人。举个例子，银行一部分存款账户，属于“风险账户”，这种账户的开户人都有不光彩的过去，因为科技的进步，个人能用一个手机号就绑定所有APP产品，个人隐私的泄露风险恰恰降低了诈骗成本，而弱人工智能也能根据个人信息推断我们的喜好。试想一下，有上述诈骗记录的持卡人如果开通很多虚拟小号，加上黑名单记录、涉赌涉毒、大额高频次跨境转账，还能安然在银行办理存款账户，后果非常严重。而用于界定风险账户与否的这些负面历史信息，很多是以图、时序、树状等方式留存下的信息。如果没有在金融业长久的信息积累，这些信息将不会被用来训练大模型，更没法达到用AI帮助金融业的效果。

只管开户端，那么存量存款账户怎么用AI大模型来识别风险？你能想到的，百融云自然也应该想到。作为只有单一维度黑名单数据的银行来说，百融云就要用个人、企业端的信息进行补充，最终形成风险评分体系，用这些信息和算法来训练AI大模型，帮更多银行客户划定账户的风险等级，决定账户是否开通、是否调查。还是举个例子，上文提到的手机信息核验，在网状态和手机号画像便是一个账号过往信息最直白的写照，如果是一张非实名电话卡，那么就会直接标注为存款账户中高风险客户，这个规则也会直接用来训练AI大模型实现标准化；然后根据电诈欺诈源、高维用户信息，确定0-10的风险等级。同理还涉及黄赌毒信息及各种不良记录，输出0-4评估等级及Y、N输出结果，以逻辑回归、LASSO回归等AI算法，帮助银行打造全面开户端账户分级。其中的这些画像、电诈信息源，显然光靠文本化信息是不够记录的，所以再通才的大模型，也未必能读懂金融业的诉求。

综上所述，有了这些“向量”的加持，金融AI大模型才能跑得通、玩得转。另外大家回想平时用浏览器搜索时，是不是只要问题不精准、有错别字，你想查的内容和得到的搜索结果，就会出现差错？而向量信息解决的就是在搜索时，找出最符合要求的Top N个目标，提供除精准回答之外的N个答案。

要做金融AI大模型的百融云，已经靠着积累了9年的金融业经验，在2023年一季度实现营收5.66亿元，同比增幅25%；基于自研AI平台的第一大业务“智能分析与运营”收入同比增幅41%至2.81亿元；百融云自身的AI产品线“智能运营服务”，收入较去年同期增长68%。如果一家企业说，自己也想用向量信息投喂AI大模型，那如果之前都没在金融业客户中实现过业绩，那跟画饼不就又没什么区别了吗？

富士山下钟无艳，耿耿于怀罗生门。真AI从来就不需要理由和借口，弱复苏中的口红，就是海誓山盟。