如何做好并用好风控模型监控？

作者：更新时间：2022-12-16 点击数：

没有监控的模型，就像没有指南针的钟表，失去了控制。我们如何通过数据的变化来判断模型是否正常运行，以减少风险？作者结合自己的经历，总结如何做好并用好风控模型监控，希望对你有所帮助。

使用没有监控的模型，就像使用没有指针的钟表，它可能在工作，但你怎么知道呢？

模型监控就是模型上线之后，根据数据的变化来判断模型是否正常运行。

兹事体大。

一、为什么重要 “最近通过率下降了，怎么办？”

“最近逾期率上升了，怎么办？” 或者，“最近逾期率没什么变化，真开心。”

当你不做监控时，上面是你可能发出的提问。这些问题 low 不 low，你自己说。

报表体系的搭建对于任何一家金融机构都尤为重要，对于风控模型，上线部署后会因内外部各种因素引起模型分数偏移，甚至出现错误。

为了能在第一时间发现问题，我们需要对模型进行动态监控。有一套相对完整的报表系统，能对模型的有效性、稳定性做到及时的掌控，以确保模型如期运行。否则，应启动迭代新的模型。

在这之后，你的问题会变成，

“最近有个渠道客群模型均分下降了十几分，通过率低了很多，要不要下线这个渠道？”

“最近逾期率没什么变化，但模型分 KS 下降了 5 个点了，是不是模型有问题了？”

你应该意识到，报表让你提出了更针对性的问题，并指向你去解决问题。

二、如何做监控我们都知道风险表现是滞后的，用户申请之后需要一个表现期你才能知道这个人是好的还是坏的。模型同学往往重点关注模型效果，需要先有 label，但在没有 label 之前，肯定也不能放任不管。以需不需要 label 为界，我们可以把监控分为前端监控和后端监控。

申请时我们能获取得到的东西，可以用来做前端监控，例如，申请量、通过率、客群分数分布等。如果我们更进一步，关注策略的稳定性，拒绝流的监控就很重要。除此之外，我们，还应该关注重要特征的监控。

这一步，是为了在第一时间监控到线上发生了什么，以及我们的客户是什么人。申请量、通过率的稳定，最让人省心，出现较大波动，则应对其原因有基本的了解，是既定的渠道推广，还是什么不知名的原因。通过率最为重要，如其发生非预期的变化，就要去看拒绝流的哪个环节出现问题，拒绝流是决策引擎中规则执行的顺序，例如，先过黑名单、再过强规则、再过模型，检查这些比例是否稳定合理。模型通过率的变化是客群分数分布变动导致的，又可以溯源至特征的分布。

而后端监控主要是关注模型性能和资产表现，最直接对应的就是 KS 和坏账率 PD。后端监控中应该统计出每个分数段的人数和坏客户比例，这才是和决策直接相关的东西。

资产质量永远是最重要的，放出去的钱有多少能回来本质上都取决于资产的质量。后端监控当然很有用，但别忽略了前端监控，客群的均分、收入、征信表现等 x，或者 f(x)，都一定程度上体现了 y。

前后端，是更有效率和更准的问题。

模型和策略的共同点是都很关注人，异同点则是前者是模型视角，关注评分，后者是资产视角，关注钱。

三、如何读监控数据分析的三板斧，看趋势、看对比、看细分。解读监控报表亦如此。光有一个数据是无意义的，比较才能使其有洞见，怎么比？和过去比，和其他的比，分开了自己比。

趋势分析：关注业务量、通过率、逾期率、KS 等指标逐月甚至是逐日的变化趋势。申请量增长显著的话，还得保证资金储备充足。每个关键指标趋势变化的拐点都值得注意，不一定存在问题，但至少应予以思考。

对比分析：分为纵向比较和横向比较，前者是自己和自己比，后者是自己和别人比。纵向对比还包括环比和同比，环比就是本期和上期比，例如这个月和上个月比，同比是本期和上一周期的同期比，例如今年 618 和去年 618 比。很多数据指标是有周期性的。横向比较就是跟行业其他平台比一比，这个很有用，出问题了是行业问题还是你自己的问题，大面上有这个横向比较就差不多知道了。

细分分析：选取一些关键维度，如渠道、年龄、地域、收入等，去关注这些维度不同客群各指标的差异。贷前最主要的一个维度就是获客渠道，要密切关注各渠道的转化和风险。好渠道是用来拓展业务的，坏渠道只会增加损失。数据分解，定义哪些是问题，哪些不是问题，或者说，哪些是机会，哪些不是。如果你的业务规模和业务模式总是一成不变的，也许不需要分解。然而，这种情况是极少的。归因分析的基础就是细分。

因为你要这样读监控，你就自然知道如何做监控。有效的解读监控，让你关注到真正的问题点，而后才能解决问题。

四、采取行动如果模型和策略同学不按时审阅监控结果，那工作也是很难开展的。如果审阅监控结果后，不采取行动，那工作是无意义的。

最终的行动就只有两个，一是调整策略，一是迭代模型。

通过率下降、风险上升，是最恶劣的情况。策略调严是没办法的第一步，但这没什么用，因为通过率已经很低了。大概率是模型失效了，也许是数据质量导致的，也许就是模型部署有问题，这肯定要迭代模型。

另外三种 case 呢，通过率上升、风险下降，皆大欢喜；通过率上升、风险上升，通过率下降、风险下降，就有点难了。三种行动，调整策略，迭代模型，什么都不做，选哪个？

我们都知道做产品增长呢有一个“北极星指标”，也叫“唯一关键指标”（OMTM，One metric that matters），就是产品现阶段最关注的指标。信贷业务的北极星指标是什么呢，更常见的说法可能是在贷余额。招商银行还曾经把 app 月活用户数当北极星指标。那如果要给模型定一个 OMTM 呢？不管是在贷余额还是月活，我们都是要越多越好的，怎么多起来，就是要模型足够好。模型足够好，通过率才能足够高，营销才敢放开。那模型的 OMTM 最好的选择就是 KS。

现在好办了，关注这个 OMTM，不达标就行动。例如模型 KS 下降 10 个点，或者下降比例 30%，就考虑去迭代模型。

说的是考虑迭代模型，不是说必须。前面的分析应该让你对下降原因有了一些了解，结合起来看。

明确核心指标有助于我们在复杂的大盘数据中找到重点，快速做出决策。特别是在同时订阅多个指标时，有些指标正向，有些负向，就可以重点关注核心指标，舍弃不太重要的指标。采取行动会更迅速且更具共识。

五、不太合理的现象模型同学往往过于关注效果监控，而忽略流量情况。这个是视角问题，只看局部不好。即使不需要你去了解业务，你最起码也得归因吧。

因为你不用做决策，所以不去了解真正的问题，然后把真实的工作做成了 kaggle 比赛的样子。非常需要引起大家的注意。

你会发现你天天在解决问题、解决问题，问题在于这都是别人告诉你的问题，你什么时候去发现问题呢？

很多模型同学都不管这些，待在所谓的算法工程师的 title 里面玩弄所谓的算法。假如你对结果负责，你就不会这样了。

很多企业愿意毫不犹豫地增加千万资金接入数据，而不愿意花费几十万来培训员工提升综合的风险管理能力。只能说，这就很神奇。

六、经验分享一般来说，在模型训练好上线后，模型能力会不断衰减，呈波动状下行。可以设定一个阈值，当模型的 AUC 或者 KS 低于这个阈值的时候，重新迭代模型。

如果模型没有随时间衰减，B 卡可能会这样，迭代模型光靠更新样本就意义不大，这时候应该做的是，深化信贷特征的挖掘。

如果模型效果衰减很厉害，实时模型要注意特征计算层有没有出现问题，离线模型除特征跑批出现操作异常外，一般都是业务变化导致客群发生了变化。别老想着模型打分有问题。

线上如果出现问题，很难直接指向模型，因为复杂性其解释权都在模型同学手上。策略同学不要听他们的解释。问题容易出在模型上面，但不是说“锅”都是模型同学的。

如果模型和策略是分开的，还是配置个模型验证团队吧。

贷前因为要及时了解流量变化，可以用较短的表现期。

最好的监控工具是 Excel，最强大的数据分析功能是透视表。

模型监控，真的是一个蛮兹事体大的事情。设想我是出钱的老板，我更相信被监控稳定运行的普通模型，而不是“裸奔”的大数据模型。

最后强调下，报表不是越多越好的，重要的是有价值。好的报表是解决你的问题，而不是增加你的问题。

总而言之，监控那些应当被监控的事情，并在发现问题时采取恰当的措施。

为我投票我在参加人人都是产品经理2022年度作者评选，希望喜欢我的文章的朋友都能来支持我一下~

点击下方链接进入我的个人参选页面，点击红心即可为我投票。

每人每天最多可投35票，投票即可获得抽奖机会，抽取书籍、人人都是产品经理纪念周边和起点课堂会员等好礼哦！

投票传送门： https://996.pm/7mXqv

专栏作家

雷帅，微信公众号：雷帅快与慢，人人都是产品经理专栏作家。风控算法工程师，懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单，继而发现风控让人生更自由。

本文原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

给作者打赏，鼓励TA抓紧创作！

{{{path> 赞赏

加入收藏

上一篇：抖音做得好外卖的生意吗？

下一篇：今年刷屏B站最多的词，两个字

返回列表

如何做好并用好风控模型监控？

随便看看

产品推荐

懒熊体育平台设计开发

零担速配

趣逛地图

机械设备企业网站设计

istar爱星光网站设计