度小满金融NLP技术投入小微风控模型提升小微企业融资效率
近日,度小满金融科技的AI-NLP团队在微软举办的MS MARCO 比赛中的文档排序Document Ranking(文档排序)任务中刷新记录,超越三星、微软、谷歌、斯坦福、清华大学等一众参赛者,荣登榜首(截至2021年3月12日)。
MS MARCO挑战赛拥有权威性高、应用价值大等特性,吸引非常多的工业界巨头和学术机构来参与,竞争十分激烈。要赢过来自海外谷歌、韩国三星AI研究院、斯坦福大学,国内的清华大学等等的其他队伍,难度更是直线上升。而度小满NLP团队提交的模型,不仅以0.416的eval分数大幅领先其他团队,还在第一名的位置维持了一个多月的时间,这不得不让人好奇,他们到底是怎么做到的?
据了解,度小满NLP团队首次提出了DML文本排序算法,通过自主研发的自适应预训练语言模型对query(用户搜索的真实问题)和document文本进行深度理解,利用了数十万数据来训练模型,经过召回、重排等多个阶段,给出最终排序。
除此之外,度小满在成立初始,就抱着将NLP等科技引入金融业务当中的理想,建立起了一支AI团队。其中一部分人来自百度,众所周知,百度是中国NLP领域的一面技术旗帜,曾获得过包括国家科技进步奖在内的诸多权威奖项,这种技术基因也为度小满所沿袭。而另一方面,度小满也以十分严格的标准吸纳技术人才,建构起了一支实力强劲的技术队伍。
度小满所提交的模型,其所具备的强有力的文本理解和匹配能力,可以轻松应用于金融、征信等多个领域中,赋能给中小企业者。
作为国民经济的“毛细血管”,小微企业、个体工商户虽“小”,却承载着保居民就业、保基本民生的责任。而在近几年的政府的工作报告中,也多次提及要“帮助小微企业降低综合融资成本”。
度小满在MS MARCO比赛中所运用到的数据挖掘、阅读理解等NLP技术,就已经在度小满的小微风控模型中投入了实际应用,通过对企业公章、征信报告等非结构化信息进行深度挖掘和理解,为风控模型提供了更丰富的特征和数据维度,从而可以更高效精准地识别风险因素,提升小微企业的融资效率,帮助其抵御黑产侵害。
举个例子,在挑战赛中,度小满NLP团队需要解决一个技术难题:没有被点击的搜索结果有可能是错的,但也有可能是对,如果系统错过了这些没有被点击、但是正确的信息,其排序结果可能无法呈现出最佳效果。而在小微企业融资场景中,同样存在很多这样的信息,比如有的用户并没有提供相关信息或行为,系统就需要对这些没有标注的样本,准确地判断出其风险等级。
由此可以看到,想要在资本市场和小微企业之间建构起信任桥梁,既需要技术积累,又要有对实体经济、小微企业业态的真实洞察与服务理念,这恰好也是度小满一直以来努力的方向。