赵卉:大数据技术助力互联网金融风控
宜信致诚信用董事总经理 赵卉新浪财经讯 “2016中国高新技术论坛”于11月16日-18日在深圳会展中心举行。宜信致诚信用董事总经理赵卉出席并演讲。她表示,互联网金融的生态环境应该是互联、竞合、共存,风控能力较弱的平台因无法控制风险而频繁发生各种危机事件,给行业带来负面影响。宜信致诚一直致力于大数据技术的研究开发,助力互联网金融风控。
以下为演讲全文:
致诚信用成立之后,在大数据方面积累的能力主要分为三大块:第一是数据抓取和渠道能力;第二是对数据加工和处理能力;第三是数据应用能力;这里主要介绍一下致诚信用目前开放的数据抓取能力,包括两点:一是互联网公开数据抓取,另外是客户授权数据抓取。
大数据抓取服务介绍:
基于多年积累下来的云计算、计算机视觉等技术以及搜索引擎底层技术,致诚对在风控中能够产生价值的互联网信息都会持续地抓取和积累,包括工商、司法、失信黑名单、代办包装信息等多种内容。授权抓取数据包含央行征信报告、主流银行的流水、三大运营商的通话详单、支付信息等,这些信息是金融强关联的信息,对于风控、信审有很大的参考作用。致诚信用也会开放这部分数据的抓取能力,帮助机构在获取客户授权后,方便快捷地获取相关数据。
致诚相关数据抓取服务广泛使用弹性云计算技术,可根据业务需求量的增大,实现快速扩容保证服务质量。针对互联网关键风险信息可以做到秒级监测。 当相关风险信息出现后,致诚可以在最快时间内获取到。例如,当某个人被法院列入失信黑名单,我们可以在客户需求的监控下,第一时间获取信息并给客户发出预警。此外,如果某些机构对一些特别领域的信息有采集需求,我们可以提供定向采集服务,包括对网站关键信息进行定向采集,或者对整个网站做全站镜像。
授权抓取服务的特点
在互联网时代,越来越多的人在不同的互联网应用之中留存下来大量数据。在客户授权情况下,高效获取这部分数据,并将其应用于风控信审之中,降低信息不对称是未来互联网金融的主流趋势。在快速授信模型中越来越多地被使用。
致诚信用授权抓取服务具有三大特点,首先是多终端的支持,服务方式包含API接口输出, 手机APP,和PC端WEB形式,提供机构不同的使用选择。第二是多数据种类支持,包括互联网金融机构主要参考的各种相关授权数据。第三是便利性,抓取结果按照风险管理中的不同关注点进行梳理,支持打印和一键发送功能,将不同维度的统计信息和原始数据快速下发给业务流程中的相关人员。
图中的App,可以实现银行流水、央行征信报告等内容的一键发送,抓取下来的信息形成报告,迅速发送给信审风控人员,供他们参考。PC端的应用可以方便门店及信审人员面对面的和客户进行授权工作。在PC端授权后可以直接形成包括客户的消费能力、活动半径、银行逾期情况及主要联系人的授权信息综合报告。我们希望这种结构化报告的形式可以给信审人员和风控人员一个更迅捷快速的信息参考。
截止目前,致诚对外公开提供的授权抓取服务涵盖了淘宝、支付宝、三大运营商、央行征信报告及主流银行的银行流水(后续会陆续开放社保、和公积金),这些都可以做到实时抓取,平均时长在2-3分钟左右,成功率达98%以上。
公开数据抓取的特点
互联网公开数据与授权数据不同,公开数据量很大、信息杂,涉及的面也会很多,更符合大数据4v的特点,对此类数据的获取加工以及应用需要有更高的大数据能力。致诚信用目前已经具备了对上千网站进行监控并分析提取风险因素的能力。基于云平台弹性集群技术实现的架构,可以在大量互联网数据抓取需求的情况下,保证我们服务的高效和稳定。另一方面,我们可以对风险因素实施高频的监控,当发现有借款人被列入失信名单、被列入某家机构的信贷黑名单、涉案涉诉等相关信息,或借款人供职的企业产生一些重大变更等,我们都可以做到及时预警,实时推送给机构客户。
风险一键网查
在互联网抓取数据的基础之上,我们还提供风险一键网查的功能性应用。将各种各样通过互联网搜索到的信息,以简洁友好的界面给大家一个展现。以前信审人员要在电脑前打开很多页面来查询,百度一个人名会出现几千个同名人。 而风险一键网查功能则智能地把与该借款申请人的直接相关信息在电脑前按照关系强弱来排列。 例如如下界面,左边是客户进件申请的一些信息,包含单位名称、身份证号码、以及联络方式和联系人等等,我们会把这些信息综合在一起, 在互联网环境下,或者在我们监控的网站之中做一个全面准确的搜索。将获取到的相关信息以及发现的风险因素分别罗列出来。通过自然语言识别技术对不同的风险内容以标签化的形式予以展现,供信审人员做简单的参考。比如鼠标点在左边这个进件申请人的手机上,右面互联网搜索到这个手机实际上是代办信用卡的一个中介手机号码。此外,我们的功能也支持一键点击即可把相关企业名或身份证进行复制,方便客户通过官方渠道去做进一步的核实(例如到失信被执行人公开的网站,或者法院裁判文书的网站进行更详细的查询),保证信息的客观和公正。
互联网金融行业反欺诈的发展历程
我们先回顾一下反欺诈的发展历程。主要的互联网机构大都是在2012年之后才开始成立反欺诈团队,之前多是信审部门单兵作战,由门店做一些很简单的反欺诈的工作,这个阶段不仅效率低,可以做的内容也比较少。随着经验的不断积累,13年-14年间,一些机构会在反欺诈团队内部进行专业化的流程制定,逐渐将手工作业变成流程化作业。基于积累的反欺诈经验,逐渐开始使用专家系统,此时的专家系统更多的只是由一些简单的基于历史经验的规则而形成的系统。随着数据与规则的积累,大型机构会尝试用信息化的技术提高反欺诈的效率,一些反欺诈流程化的工作逐渐被系统所代替。14年开始,宜信开始做一些反欺诈系统的应用,开发了自有技术的反欺诈系统,这里包含了全流程的数据抓取服务,反欺诈图谱等,以数据化和可视化的方式支持业务人员进行决策。阿福反欺诈决策引擎是基于我们于2015年开发的自有知识产权的一套反欺诈系统,逐渐完善后将它的一部分能力开放出来,提供给其他机构一起来使用。未来反欺诈的趋势也会往智能的方向发展, 基于大数据的机器学习会越来越多地减少人工干预,反欺诈工作由人工为主系统为辅转变为系统为主人工为辅的局面, 这部分的尝试致诚一直在跟进和研究,相信在不远的未来,我们会把这部分的技术分享给大家。
阿福反欺诈决策引擎
阿福反欺诈决策引擎主要利用多维度的大数据和宜信10年反欺诈经验凝练而成的一些特征和规则,来提升反欺诈的规则有效性。它基于致诚阿福共享平台,阿福共享平台有宜信全量的黑名单和借款记录,以及愿意和宜信互换、共享相关借贷信息及黑名单的机构的数据,除此之外,阿福反欺诈决策引擎还对接了超过30家的第三方数据,可以将强关联的金融数据和多维度的三方数据、大数据结合在一起对反欺诈工作给予数据层面的强有力的保证。阿福反欺诈决策引擎更多的是面向政策制定者和反欺诈工作人员。机构政策人员可以通过一个更友好的界面,以拖拽的形式简单、便利的制定欺诈识别规则和规则命中后采取的不同策略。
如何实现的欺诈的识别?
上述介绍得知,我们既有金融强属性数据,又有三方多维度的数据。我们运用知识图谱技术,把通过抓取服务得到的一些非结构化、半结构化的数据以及内部积累下来的强金融关联数据结合在一起,形成了一个知识网络—知识图谱,基于知识图谱,我们可以实现智能查询,发现一些潜在的信息和知识,实现多层次的关系推测,把人和人之间的一些潜在关系从深层挖掘出来。有了这项技术,我们更容易发现一些欺诈集团互相关联的组团诈骗的行为。基于知识图谱可视化的反欺诈图谱,可以使风控人员迅速发现每个进件的风险点。这项技术在宜信内部已经应用了2年时间,取得不错的效果。
各个机构如何使用阿福决策引擎服务?
首先需要每个机构提供需要核查的信息项,我们会提供一个标准的进件模板,机构可根据自身需求和偏好自定义需要通过哪些信息项需要通过决策引擎来进行信息的核查与核实。当然机构提供的信息过少,反欺诈决策引擎得到的结果会稍微弱化。决策引擎会自动根据规则完成相关信息的合适验证,风险因素的匹配,综合信息交叉关联 ,甚至实现自定义评分,也可以选用转线下反欺诈团队支持等增值服务。
我们进件形式和接入方式也比较灵活,现在支持Excel形式做测试,API对接形式也已开放,而且也会通过线上直接看到决策结果。初步我们首先提供的基于规则的决策功能部分,后续我们会把我们积累下来的决策树、随机森林、贝叶斯网络、深度学习等复杂的机器学习算法也逐渐加入决策引引擎之中,满足业务更复杂的需求。 同时我们功能还支持动态策略调优。每家机构都可以实时可视化看到自己的进件数据,通过决策引擎匹配到的结果发现有哪些风险事件和问题进件的风险点在哪里,以及预先定义好的各种各样的规则它的命中程度,哪条规则命中的效果更好,哪条规则一条都没命中, 同时我们也动态给机构一个对自己决策集调优的策略,帮助各个机构把反欺诈业务做得更好。我们也可以用一句话用更简单地来介绍决策引擎:就是通过决策引擎把客户的基本身份、资产类信息、消费能力信息、以及通过各种各样三方渠道得到的客户行为信息,对客户进行特征画像。并将这些特征结合宜信内部积累的黑名单以及各种各样失信被执行人黑名单、阿福平台同业机构数据进行了综合分析对比,通过规则集的形式,识别虚假、伪冒、代办包装和骗贷集团等各种类型的欺诈风险。帮助结构更快速更准确的做出反欺诈决策。
阿福反欺诈决策引擎的主要特点
首先在系统里预置了一些反欺诈领域里众多机构都会用到的风险特征,相应的统计计算方法和机器学习的分类算法。普通的政策制定人员和反欺诈业务人员,可以直接使用我们预定义的特征及特征集来定义符合机构自身风险策略的规则和规则集,也可以直接在我们预置的互联网金融行业常用的规则集上做策略的调整,迅速完成反欺诈策略部署。每个不同的业态使用的规则相似度比较高,但策略上会有差别。因为宜信涉及的业务领域比较多,我们会把宜信内部经常会用到的规则和特征逐渐开放在这个平台中,并标明它适用的不同业务场景和业务形式,提供给机构,机构可以根据自己的业态和风险偏好自行选择使用。反欺诈业务本身就是不断改进、不断提高的过程。基于后台的统计和数据分析,我们还会提供相应的BI统计分析结果,帮助机构通过图表等可视化的方式对不同规则进行命中分析,有效性分析,风险因素统计等工作,为不断优化规则集提供数据分析层面的支持,使反欺诈业务不断得到提升。 除了提供系统层面整套解决方案以外,还会提供线下的反欺诈业务核实,这项服务主要面向金额比较大、需要做更详细、更深入反欺诈调查核实的场景,我们可以利用内部反欺诈核实团队在T+2时效内提供反欺诈核实任务。
总结
互联网金融的生态环境应该是互联、竞合、共存,风控能力较弱的平台因无法控制风险而频繁发生各种危机事件,给行业带来负面影响。作为行业共享的倡导者,我们一方面基于致诚阿福平台将宜信十年积累的数据免费开放给行业共享查询;另一方面,开放我们的大数据技术大数据技术应用在互联网金融的风险管理、建模、评分等领域的能力,帮助行业健康发展,携手同业一起把整个行业生态做得更好。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
进入【新浪财经股吧】讨论
页:
[1]