我们不再支持这个浏览器. 使用受支持的浏览器将提供更好的体验.

更新浏览器.

关闭浏览器消息

研究 从行政银行数据估计家庭收入

机器学习方法

12bet官方研究所的成立是为了利用行政银行数据的力量,加深我们对关键经济问题的理解,并为决策者提供及时的见解. 我们最近开发了一种基于机器学习的家庭收入估计方法,以便在我们的研究中获得更深入的见解和改进的代表性. 我们在这个新版本中描述了我们的方法和结果.

Q&关于JPMC研究所收入估算

我们讨论了这种新的收入估计的动机,以及将机器学习方法应用于行政银行数据的潜力.

什么是12bet官方研究所收入估算(JPMC IIE),为什么12bet官方研究所创建它?

简单地说, 该研究所的收入估算是对经常使用大通银行支票账户的家庭总收入的估算. 分析和理解家庭的财务行为及其在不同收入范围内的差异是该研究所工作的中心主题. 以便更好地评估这些动态, 我们需要创建一种方法,通过我们的数据集估算家庭总收入.

我们将从大通投资组合中获得的见解扩展到美国人口的能力,依赖于拥有或接近一个代表更广泛人口的样本,并能够根据关键属性区分结果, 比如年龄, 收入, 和地理. 例如,如果我们想衡量休斯顿的消费支出增长,就像我们做的那样 本地消费者商业指数, 我们要确保我们在休斯顿观察到的顾客真正代表了这座城市, 我们可能还想知道谁在休斯顿贡献了大部分的增长.

我们知道,大通的投资组合并不能完美地反映美国人口,也不能提供一个了解其客户收入的完美窗口. 例如,它从本质上排除了没有银行账户的人,这些人往往收入较低. 即使是银行家庭, 金融机构可能会看到工资收入进入客户的账户,但不会看到所有的税收减免, 保险, 由雇主安排的退休. 而且可能还有其他收入来源没有存入客户的账户.

为了使我们的样品更具代表性, 我们必须能够重新调整人口的比重,使之与国家的收入分配相匹配. 为了研究低收入家庭的经济行为, 我们希望按照国家基准来定义低收入者. 因此,我们需要一个与人口普查相媲美的收入衡量标准,以便重新加权和基准我们的样本. 这就是为什么我们选择创建JPMC IIE.

在高层次上,JPMC IIE背后的方法论是什么?

JPMC IIE背后的想法非常简单,因为它是机器学习中“监督学习”问题的经典应用. 对于一些客户,我们实际上知道他们的家庭总收入, 因为他们向我们申请了抵押贷款或信用卡, 我们被要求询问他们的收入作为承销过程的一部分. 这些客户代表了我们的“真相集”.“在这些客户中,我们可以确定我们观察到的所有客户的哪些特征可以高度预测家庭总收入. 从这个意义上说,我们可以训练一个模型来预测家庭总收入,这个模型使用的是每个人都可以观察到的特征. 一旦我们调整了这个模型,使其尽可能地预测真实情况, 然后,我们可以利用它来为其他所有人生成预测的家庭总收入.

JPMC IIE对家庭收入的预测到底有多大?

我们第一个版本的JPMC IIE利用了各种各样的特征来预测家庭总收入, 包括银行内部的帐户信息和公开可用的数据. 它能够预测出家庭总收入, 平均, 不超过事实的百分之四十一. 也就是说,平均而言,估计可能比实际高或低41%. 这被称为“平均绝对误差”.”

因为我们主要关心的是确定一个家庭的收入五分之一, 我们还根据预测收入与家庭真实收入落入同一五分之一的频率来评估他们的表现. 在这一点上, 预测的五分位数在55%的情况下与真实的五分位数相符,在大约90%的情况下与真实的五分位数相等或接近.

这当然留下了改进的空间. 但让我们正确看待这些数字. 我们是简单地根据居住在同一邮政编码地区的家庭的平均收入来猜测每个家庭的收入吗, 根据税务记录, 我们的平均误差会达到103%. 这显示了利用行政银行数据来预测家庭收入的价值.

我们还对JPMC IIE进行了测试,看看如果我们用它来衡量我们的医疗保健自付支出面板中的人口,它的表现如何. 果然, 年龄加权和JPMC IIE使我们的人口比单独按年龄加权更能代表一般人口.

这项研究与12bet官方研究所的典型研究有何不同, 我们从中吸取了哪些重要的教训?

这是机器学习在我们工作中的第一个应用. 除了, 而我们的大部分研究都是为了回答具体的研究问题, 本出版物为我们描述了一个关键数据资产背后的方法, JPMC IIE, 哪些是其他研究的基础.

我们确实从这次演习中学到了很多东西. 我们将分享一个关键亮点.

团队一开始就很清楚,我们的预测只会和我们的真理集一样强大. 我们需要确保真相集代表了我们试图预测收入的广大客户群体. 依靠抵押贷款和信用卡申请人为基础的真相, 我们的真相集偏向于高收入家庭, 因此,我们必须对收入较低的抵押贷款和信用卡申请人进行抽样调查. 根据收入对真相进行分层,对收入最低的五分之一家庭的五分之一预测提高了28个百分点.

那么12bet官方IIE的下一步是什么呢? 是否有计划继续加强或扩大收入估算和这些方法的范围?

正如我们之前提到的, 平均绝对误差为41%, 还有很大的改进空间. 我们正在吸取最初的经验教训,并继续改进这个模型.

我们正忙于完善和增加我们的原始特征,看看我们是否可以提高预测的准确性. 我们还试图通过在银行内寻找更多的客户来扩大我们的真相集的规模,我们为这些客户提供了家庭总收入.

我们还看到了将这种收入估计的范围从支票账户客户扩展到信贷客户的前景,这样我们就可以对所有客户进行统一的预测估计.

我们希望发布我们最初的方法不仅可以让公众了解利用行政银行数据进行预测的力量,还可以为未来的改进产生大量反馈. 所以请向我们提出想法,并继续关注!