怎样在个人征信机构使用非信用数据

来源：中国征信杂志时间：2017-10-20 12:16:18 作者：李铭

近年来流行一个“一切数据都是信用数据”的说法，用各种“非传统”数据做信用风险评估受到不少国内信贷机构的青睐。然而与许多人的猜想不同，国外的征信机构几乎没有一家使用这些数据。这篇短文讨论为什么这些数据难以被征信机构使用，以及是否存在变通的办法。在讨论问题之前，笔者想先给本文要讨论的数据确定个范围。一般而言，可以将征信机构感兴趣的数据分为信用数据和非信用数据两大类。信用数据又可以进一步区分为信贷信用数据和非信贷信用数据两个子类。最近十几年来受到国际征信行业广泛关注的所谓替代信用数据或非传统信用数据，例如电信、有线电视和公用事业的缴费数据，可列入非信贷信用数据范畴。本文谈论的数据主要属于非信用数据，具体说来，就是指用于信用风险评估目的的不具有信用交易特征的数据；相应的模型和评分则分别被称为非信用数据模型和非信用数据评分。

非信用数据在个人征信机构使用所面对的最大障碍是其很难满足征信行业对于数据的基本要求。世界银行2011年发布的《征信通则》中指出，征信机构的数据要“相关、准确、及时、充分”，要“在系统化的基础上向所有可靠、适宜和可用的来源采集”，并保存“足够长的时间”。非信用数据要满足这些要求还真是不太容易。

一百多年里征信行业走过漫漫长路，最终从“报告传闻”和“主观评估”转变到“报告事实”和“科学评估”上来。这里面，“报告事实”主要是通过报告契约（合同）信息和信贷机构账户信息来实现，数据中可能存在的错误开放给借、贷双方去质疑；“科学评估”是通过统计学的理论和方法对数据进行预测分析，模型准确性允许用实验手段去度量。非信用数据的情况如何呢？非信用数据的真实性（Veracity）通过多层面、多角度、大数量的数据交叉比对和相互影响来实现，证伪求真针对的是一个数据分析过程而不是数据元素本身。于是数据的相关性和准确性验证困难，也很难开放给信用主体去检查和质疑。

在更深的层次上，非信用数据带来的最大问题是征信机构无法实现对数据的控制。这反映在以下几个方面：

首先，非信用数据几乎没有可能采集。如同在替代信用数据采集时遇到的问题一样，数据源与数据使用者的分离成为妨碍信息共享的最大障碍。数据源不是整合后数据的使用者，不从数据共享的实践中获益，这使得数据源机构缺少数据共享的动力和积极性，数据源机构需要在共享活动中寻求其他利益（例如有偿共享）。由于非信用数据通常散落在许多机构手中，其数量庞大、规模增长迅速、内容芜菁混杂，以全量采集为目的数据购买行为没有经济上的合理性和技术上的可行性。因此，期望将非信用数据像信贷交易数据一样采集到征信机构来，恐怕只是种奢望。

其次，使用非信用数据的征信机构可能要承担侵犯消费者权益的法律责任。既然征信机构不能通过数据采集实现对数据的完全控制，也基本不可能通过契约手段将数据的管理和控制责任完全转嫁给数据源机构，因此征信机构没有办法履行自己的法律责任，保障信用主体对征信数据的知情权、访问权和纠错权。换句话说，如果决定在征信业务实践中使用非信用数据，征信机构从第一天开始便要做好准备，去承担可能存在的侵害消费者权益的法律责任。

最后，使用非信用数据评分的征信机构可能需要承担更多的法律责任。在传统上，由于评分模型被看作商业秘密而不能向消费者披露，征信机构主要的法律义务之一是要向消费者披露分数计算所使用的全部数据。消费者无法向模型的数学公式提出异议，但消费者可以检验分数计算所使用的数据。如果数据中存在错误，消费者就有权要求纠正这些错误、重新计算分数。在非信用数据的情况下，使用非信用数据评分的征信机构可能无法或不便向消费者披露计算评分所使用的数据，于是在相当程度上摧毁了非信用数据评分的使用者规避自身法律责任的可能性。

那么，征信机构在简单地宣示“拒绝使用非信用数据和非信用数据评分”之外，面前是否存在其他选项呢？

我们注意到，数据的多样性是非信用数据的基本属性之一。有些类型的非信用数据其实仍然属于“事实数据”。这些数据虽然难以采集，但并非不可以向消费者报告，例如电商交易数据或手机呼叫数据等。这里暂且将这类数据称为可报告非信用数据。另一些类型的非信用数据不属于“事实数据”，不可能或不适合向消费者报告，例如社交媒体数据等由信用主体主动提供、真实性难以验证的数据，以及一些至少从表面上看似乎严重不“相关”的数据。暂且将这类数据称为不可报告非信用数据。

如果评分模型仅使用信用数据及可报告非信用数据，可以按照传统的方式处理“非信用数据评分”的法规依从性问题。我们只需要给使用到不可报告非信用数据的评分模型（权且称作“黑盒模型”）寻找一个规避法律责任的办法。

如前所述，使用“黑盒模型”的主要目的是解决没有信用历史或信用历史信息不足的消费者人群的信用风险评估问题。替代信用数据的相关研究表明，这个人群中的多数人是信用状态良好的人，包括一部分信用状态非常好的人。如果“黑盒模型”有较好的预测能力，可以认为前述人群中的多数人会从“黑盒模型”的使用上受益。这部分人应该不会很在意非信用数据评分是否侵犯信用主体的权益。因此，需要考虑的仅是被“黑盒模型”认定为高信用风险的少数人，包括被错误认定为高风险的人和被正确认定为高风险的人。

对于这部分人，一个简单的处理方式是允许他们拒绝非信用数据评分给出的评估结果。这相当于是赋予信用主体“拒绝被自动化决策”的权力，即宣示信用主体有权要求信贷机构采用传统信用评分、使用信用报告或使用附加提供的数据人工判断信贷产品申请人的信用风险状况。在一些欧洲国家的个人信息保护法律中，“拒绝被自动化决策”的权力已经存在。有条件地许可金融消费者行使这一权力不会给信贷行业带来太大的压力和负担，与此同时，可以保障信贷机构在传统法律和法规的框架内通过非信用数据的使用而获益，是件双赢的事。

简单归纳起来，个人征信机构使用非信用数据大致可遵循这样一种模式：

1.放弃采集数据的传统做法，征信机构与相关数据源签署协议，按需获取非信用数据。

2.征信机构使用自己拥有的信贷交易数据对非信用数据评分模型的准确性和稳定性做充分验证，而后在自己的平台上部署非信用数据评分产品。

3.如果所部署的非信用数据评分模型是“黑盒模型”，征信机构与信贷机构要签署关于非信用数据评分产品使用的附加协议，明确承诺消费者享有“拒绝被非信用数据模型自动化决策”的权力。

4.当信贷机构向征信机构查询非信用数据评分时，征信机构从签约数据源处实时获取所需非信用大数据，与征信机构自有的其他征信数据一起（如果必要）计算非信用数据评分。

5.如果征信机构部署的非信用数据评分模型不是“黑盒模型”，征信机构应将获取的非信用数据融入信用报告，和非信用数据分数一起交付给查询人，同时将非信用数据保存下来以供审计。

6.如果信贷产品申请人不满意使用“黑盒模型”的非信用数据评分结果，要求审批人员忽略非信用数据评分，审批人员应满足信贷产品申请人的要求，采用人工判断的方式处理申请。审批人员可以要求信贷产品申请人提供进一步的材料以辅助审批进行。

开发信用评分模型的目标是在分数与人群“好坏比”之间建立起稳定和可靠的量化关系，传统评分模型和非信用数据评分模型在这一点上并无二致。换句话说，传统模型和非信用数据模型都试图展示自己是一个“好模型”，而模型的好坏能够使用真实的信贷数据在统计意义上加以验证。唯一存在的问题是，哪种模型相对而言能够被消费者所接受。既然非信用数据评分难以改变其“不透明”的特性，则希望让消费者自己来控制是否使用非信用数据评分可以消弭消费者的部分不满心理，而不至于让征信机构将这种有价值的预测分析技术彻底拒之门外。

作者：李铭，北京航空航天大学毕业，获计算机科学及工程硕士学位，美国雪城大学(Syracuse University) 获计算机科学博士学位。曾在多家信息技术企业、大学及商业银行工作，涉及领域包括计算语义学、自然语言处理及理解、海量信息处理、统计建模、商务智能、电讯网络管理、信息安全、软件测试、企业体系结构和个人计算机固件等。