(资料图片仅供参考)

CPO龙头内部强弱切换之日,伴随市场成交重回万亿;绕不开的先进制程向大陆放开代工,瞬间砸了28nm晶圆厂的饭碗;武皇后说着AI仍偏主题性,却又告诉光模块可以联手激光雷达。魂回谷底的公募发行份额,让敢AI敢恨的持仓者念出经济继续偏弱的诅咒;徘徊在总量边缘的权重板块,哭丧着重读黑板上的赫然:“要想实现全年5%,同志们仍需奋斗。”

好消息是大模型终于动了,坏消息是血包不够充足。当企鹅暂时抛下王者荣耀,推出MaaS全家桶,我们才意识到红衣教主所言非虚:“没有任何一个大模型能在中国一统江湖。”6月底的公募耐不住寂寞,为了中报的净值毅然加入AI抱团股。

大模型俨然为数不多有产品、有订单、有容量的选择标的。当基础知识不断被深挖,象牙塔里的数学理论,显然不如看几篇对投资有帮助的《挑干的唠》。既然如此,大模型还有哪些没被重视的技术根基?我们也尝试用普通话表述。

都知道数据是训练大模型的最关键要素,但GPT-4所用的英文数据集显然质量比中文高,但中国大模型也有独特的数据需要投喂,比如应试教育题库。举个例子,现在在线教育题库大约1.5亿道题,但由于中国题库的数据没有经过文本化处理,大多数题库仍然以图片格式存在,所以多模态大模型就势在必行。而且大模型不光要知道1+1=2,更要知道1+1为什么=2。由此而来,“向量数据”对大模型就更加意义非凡。同样的情况,在金融AI领域只多不少。

比教育AI更复杂的是,金融业的非文本化数据量更多。举个例子,用户的洗钱行为和客户背景调查,大多数以相邻关系及连通关系查询,所以图谱化的数据构成了金融业的“图数据库”;此外,股市期市的日K线图构成完成的单日交易信息记录,这就是金融业的“时序数据库”;而一些企业的股权钩稽关系,母子公司的业务往来和占款情况,又往往以“树状”数据进行存储。所以这些数据如果以文本的形式直接训练金融AI大模型,会因为维度太高导致机器学习效率降低,这个时候就需要能压缩模态数据的“向量数据”。这很可能是@百融云-W(6608.HK)这家金融AI+SaaS企业,能做金融AI大模型的独特优势。

那作为以银行为主要客户的百融云,它的AI大模型会用向量信息解决什么问题呢?最简单的就是帮银行在存款账户开户端,区分好人与坏人。举个例子,银行一部分存款账户,属于“风险账户”,这种账户的开户人都有不光彩的过去,因为科技的进步,个人能用一个手机号就绑定所有APP产品,个人隐私的泄露风险恰恰降低了诈骗成本,而弱人工智能也能根据个人信息推断我们的喜好。试想一下,有上述诈骗记录的持卡人如果开通很多虚拟小号,加上黑名单记录、涉赌涉毒、大额高频次跨境转账,还能安然在银行办理存款账户,后果非常严重。而用于界定风险账户与否的这些负面历史信息,很多是以图、时序、树状等方式留存下的信息。如果没有在金融业长久的信息积累,这些信息将不会被用来训练大模型,更没法达到用AI帮助金融业的效果。

只管开户端,那么存量存款账户怎么用AI大模型来识别风险?你能想到的,百融云自然也应该想到。作为只有单一维度黑名单数据的银行来说,百融云就要用个人、企业端的信息进行补充,最终形成风险评分体系,用这些信息和算法来训练AI大模型,帮更多银行客户划定账户的风险等级,决定账户是否开通、是否调查。还是举个例子,上文提到的手机信息核验,在网状态和手机号画像便是一个账号过往信息最直白的写照,如果是一张非实名电话卡,那么就会直接标注为存款账户中高风险客户,这个规则也会直接用来训练AI大模型实现标准化;然后根据电诈欺诈源、高维用户信息,确定0-10的风险等级。同理还涉及黄赌毒信息及各种不良记录,输出0-4评估等级及Y、N输出结果,以逻辑回归、LASSO回归等AI算法,帮助银行打造全面开户端账户分级。其中的这些画像、电诈信息源,显然光靠文本化信息是不够记录的,所以再通才的大模型,也未必能读懂金融业的诉求。

综上所述,有了这些“向量”的加持,金融AI大模型才能跑得通、玩得转。另外大家回想平时用浏览器搜索时,是不是只要问题不精准、有错别字,你想查的内容和得到的搜索结果,就会出现差错?而向量信息解决的就是在搜索时,找出最符合要求的Top N个目标,提供除精准回答之外的N个答案。

要做金融AI大模型的百融云,已经靠着积累了9年的金融业经验,在2023年一季度实现营收5.66亿元,同比增幅25%;基于自研AI平台的第一大业务“智能分析与运营”收入同比增幅41%至2.81亿元;百融云自身的AI产品线“智能运营服务”,收入较去年同期增长68%。如果一家企业说,自己也想用向量信息投喂AI大模型,那如果之前都没在金融业客户中实现过业绩,那跟画饼不就又没什么区别了吗?

富士山下钟无艳,耿耿于怀罗生门。真AI从来就不需要理由和借口,弱复苏中的口红,就是海誓山盟。

推荐内容