Data+2020安徽大数据大赛 赛题详解——通信信用风险评估

日期:2020-10-16 浏览量:83

随着互联网金融的发展,以大数据为依托的征信已经成为互联网行业和金融行业的新兴市场,可以预计,随着电信运营商介入大数据征信,所掌握的海量数据将和一些金融机构的风控能力有效结合,未来个人消费者使用手机的消费数据、通信交往记录、使用业务的情况、位置信息、消费能力等等都将关系到个人信用评价,也会影响到未来个人的银行贷款、就业和商业交往。

安徽移动已经给用户提供不同金额的欠费信用额度,还不断推出多种组合的人性化的服务,用户不必为紧急情况下欠费停机而担心。本赛题针对使用运营商信用透支用户,从不同的维度对用户的信用表现进行预测。

数据及任务描述

1.数据说明

本赛题除了可使用公共数据集外,还提供用户停机数据和违约行为数据。停机数据表名Dataplus_Credit_Train_Stop,包括如下字段:

违约行为数据表名Dataplus_Credit_Train_User,包括如下字段:

2.任务描述

训练数据部分

本赛题提供2020年5-7月用户的停机数据,以及部分用户在未来一个月(2020年8月)的违约行为(欠费导致停机)数据;公共数据集提供用户3个月的基础信息,以及在3个月时间之内(6.1~7.31)的通话、轨迹和上网行为数据。选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

预测数据部分

预测用户在2020年8月是否会违约。

数据中部分列存在空值或NULL,请参赛者自行处理。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

评分数据格式

参赛者完成对用户违约行为预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:Dataplus_Credit_Predict,格式同Dataplus_Credit_Train_User,要求去除重复。

初赛数据

初赛阶段提供10000个用户的完整行为数据。其中7000用户用于训练,3000用户用于预测。

决赛数据
决赛阶段提供70万用户的完整通话行为数据。其中50万用户用于训练,20万用户用于预测。

评估指标

本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

其中PredictionSet为算法预测的违约数据集合,ReferenceSet为真实的违约数据集合。以F1值作为最终的唯一评测标准。

电话:

(0551) 6257 6132(安徽大数据应用创新赛)

(0551) 6257 6267(安徽高校大数据建模挑战赛)

邮件:

bigdataah_zq@139.com(安徽大数据应用创新赛)

bigdataah_gx@139.com(安徽高校大数据建模挑战赛)