使用pandas进行变量衍生

import pandas as pd
import numpy as np
dic={'delq1':[0,0,1],
'delq2':[1,1,2],
'delq3':[2,0,3],
'delq4':[0,1,4],
'delq5':[1,2,5],
'delq6':[1,3,0],
'delq7':[1,0,1],
'delq8':[0,0,2],
'delq9':[0,1,3],
'delq10':[0,2,0]}
df1=pd.DataFrame(data=dic,index=['cust1','cust2','cust3'])

　上图是一个记录客户近10期的逾期记录的数据框，基于逾期行为数据进行变量的衍生。比如cust1客户，最近1期状态为M0，最近2期状态为M1，还款历史字段应为“0001110210”。

1.计算近p期总逾期次数

方法一：

def month_count(df, p):
    auto_value=np.where(df>0,1,0).sum(axis=1)
    return auto_value
auto_value=month_count(df1,10)

方法二：

def delqcnt(x,term):
    result=0 
    j=term+1
    for i in range(1,j): 
        result=result+(1 if (x['delq'+str(i)]>0) else 0) #计算每期记录是否逾期
    return result #输出加总逾期次数结果
df1['加总逾期次数']=df1.apply(lambda x:delqcnt(x,10),axis=1)

结果：

2.计算近p期最大的连续逾期次数

def maxcontinue(x,term):
    result=0 
    temp=0 #临时存储的变量
    j=term+1 
    for i in range(1,j): 
        if (x['delq'+str(i)]==0) :
            temp=0 #如果当前字段不逾期，重新计算连续次数
        temp=temp+(1 if (x['delq'+str(i)]>0) else 0) #计算连续逾期次数
        result=max(result,temp) #每一段连续逾期比较，取最大的一段逾期
    return result #输出最大的逾期次数
df1['最大的连续逾期次数']=df1.apply(lambda x:maxcontinue(x,10),axis=1)

即计算还款历史中连续大于0的个数，cust1客户最大连续逾期次数为3，为1->1->1，cust3连续逾期次数为5，为1->2->3->4->5。

3.最近一次逾期距今月份数

方法一：

def lastdelq(x,term):
    result=99 #输出结果默认为99
    j=term+1 #为了获取到相应的字段
    for i in range(1,j): #循环取值
        result=min(result,(i if (x['delq'+str(i)]>0) else 99)) #计算最近一次逾期距今月份数
    return result #输出最近一次逾期距今月份数
df1['最近一次逾期距今月份数_1']=df1.apply(lambda x:lastdelq(x,10),axis=1)

方法二：

def lastdelq_(df1,term):
    auto_value=[]
    for i in range(len(df1)):
        row_value=df1.ix[i,'delq1':'delq'+str(term)]
        if row_value.max()<=0:
            indexs=0
            auto_value.append(indexs)
        else:
            indexs=1
            for j in row_value:
                if j>0:
                    break
                indexs+=1
            auto_value.append(indexs)
    return auto_value
df1['最近一次逾期距今月份数_2']=lastdelq_(df1,10)

4.计算逾期连续增加的次数

def maxcontinuechg(x,term):
    result=0 #输出结果默认为0
    temp=0 #临时变量设置为0
    for i in range(1,term): #循环取值
        j=i+1 #取后一位期数的值
        if (x['delq'+str(j)]<=x['delq'+str(i)]):
            temp=0 #若逾期期数没有增加，设置临时变量为0
        temp=temp+(1 if (x['delq'+str(j)]>x['delq'+str(i)]) else 0) #计算逾期连续增加的次数
        result=max(result,temp) #若有多段连续逾期，比对取最大的一段
    return result #输出逾期连续增加的次数
df1['逾期连续增加的次数']=df1.apply(lambda x:maxcontinuechg(x,10),axis=1)

5.计算逾期增加的次数

def maxcontinuechg(x,term):
    result=0 #输出结果默认为0
    temp=0 #临时变量设置为0
    for i in range(1,term): #循环取值
        j=i+1 #取后一位期数的值
        temp=temp+(1 if (x['delq'+str(j)]>x['delq'+str(i)]) else 0) #计算逾期连续增加的次数
        result=max(result,temp) #若有多段连续逾期，比对取最大的一段
    return result #输出逾期增加的次数
df1['逾期增加的次数']=df1.apply(lambda x:maxcontinuechg(x,10),axis=1)

6.计算最近p个月，每两个月间的增长量的最大值

def maxtwomonth_interval(x,term):
    result=0
    for i in range(1,term):
        j=i+1
        temp=x[j]-x[i]
        # print(temp)
        result=max(result,temp)
    return result
df1['每两个月间的增长量的最大值']=df1.apply(lambda x:maxtwomonth_interval(x,9),axis=1)

7.计算最近p个月取最大值的月份距现在的月份数

def maxmonth_interval(x,term):
    df=x.ix[:,'delq1':'delq'+str(term)]
    df['_max'] = np.nanmax(df, axis=1)
    for i in range(1, term + 1):
        df['delq' + str(i)] = list(df['delq' + str(i)] == df['_max'])
    df_value = np.where(df == True, 1, 0)
    auto_value = []
    for i in range(len(df_value)):
        row_value = df_value[i, :]
        indexs = 1
        for j in row_value:
            if j == 1:
                break
            indexs += 1
        auto_value.append(indexs)
    return auto_value
df1['最近p个月取最大值的月份距现在的月份数']=maxmonth_interval(df1,10)

8.计算最近p个月的均值

def Avg(x,p):
    df=x.ix[:,'delq1':'delq'+str(p)]
    auto_value=np.nanmean(df,axis=1)
    return auto_value
df1['最近p个月的均值']=Avg(df1,10)

计算最近p个月的和

def Tot(x,p):
    df=x.ix[:,'delq1':'delq'+str(p)]
    auto_value=np.nansum(df,axis=1)
    return auto_value
df1['最近p个月的求和']=Tot(df1,10)

计算最近p个月特征的最大值

def Max(x,p):
    df=x.ix[:,'delq1':'delq'+str(p)]
    auto_value=np.nanmax(df,axis=1)
    return auto_value
df1['最近p个月的最大值']=Max(df1,10)

【作者】：Labryant
【原创公众号】：风控猎人
【简介】：某创业公司策略分析师，积极上进，努力提升。乾坤未定，你我都是黑马。
【转载说明】：转载请说明出处，谢谢合作！~

展开阅读全文

页面更新：2024-05-22

标签：变量期数最大值字段乾坤上进黑马猎人个数次数状态客户方法数据历史科技

1 2 3 4 5

用户分群与区隔变量

　用户分群的目的是建立子模型，提高模型性能，区隔变量可以理解为用来分群的变量。知乎上无忌老师写过分群变量的要求是各分箱之间的segment不一致，坏客户比率需达到30%。本文从业务策略应用的角度列出了各种策略下区隔

贷后策略效果评估

　贷后策略通过对客户进行分层，对不同风险的客群采取不同的催收策略，可以在保证回收率的同时减少催收成本，达到精细化运营的目的。关于催收策略制定及评估的文章网上几乎没有，本人结合实际工作以及个人思考，总结出这篇

使用Apriori进行关联分析

目录1.名词概念 2.频繁项集发现 3.Apriori算法关联分析 4.代码实现 5.参考文章　通过组合交叉变量制定风控策略时有两种方法：一是通过决策树分箱进行变量交叉，可以见文章一个函数实现自动化风控策略挖掘;二是通过apri

Xgboost调参小结

　XGBoost全称是eXtreme Gradient Boosting，由陈天奇所设计，和传统的梯度提升算法相比，XGBoost进行了许多改进，它能够比其他使用梯度提升的集成算法更加快速。关于xgboost的使用教程以及推导过程可以参考之前写的文章。

用户分群与建模

　用户分群是指根据某些规则将人群进行细分，细分之后的每类客户具有明显区别于其他群体的特征。这样就可以对同质客群单独建模进行分析，从而提高模型的性能。通常情况下，基于客群细分的一套模型比一个用于所有客户的单

风控报表之产品规划

　最近在读的一本书《互联网金融时代消费信贷评分建模与应用》，第八章讲到了各类报表介绍，包括产品规划、授信、账户维护、催收等方面的报表，借此机会学习并整理一下风控各环节的报表，文章内容取自书中第八章，如有理解不

一文了解助贷业务

　自从进入这个行业之后就一直听说助贷这个词，而且公司主营业务也是助贷模式，但是一直对助贷、租赁、保理这些词语似懂非懂，于是决定深入了解一下。如有理解不妥之处，烦请指正。目录1.定义 2.兴起原因 3.助贷模式 4.前

风控报表之催收与呆账

　本文是《互联网金融时代消费信贷评分建模与应用》第八章第四节的学习笔记，涉及内容是风控报表中的催收与转呆账。主要的报表如下：1.1 账龄分析表　按月出表。记录各月份各逾期阶段的迁徙率，分即期和延滞状态两种。

审批政策中的收入和负债率核实

　收入与负债核实是审批政策中的重要一环，还款能力高、负债率低往往更容易通过审批。本文从审批政策的角度介绍一些收入及负债率核实的方法。一、核实收入方法 1.1 核实收入方法一　首先根据受薪方式以及是否有物

风控报表之授信

本文是《互联网金融时代消费信贷评分与建模》第八章第二节的学习笔记。授信环节主要涉及的报表结构如下：1.1 征审生产日报表按日出表，记录每日的进件、核准件、拒绝件、余件以及待补件、撤件。用于检视每日的进件状况以

贷后策略的一点思考

　之前写过一篇贷后策略效果评估的文章，主要是介绍策略的制定以及效果的评估方法，评估方法从常见的命中率、覆盖率控制命中策略的人数，也大致预估了对催收成本以及坏账的影响。本文针对上次的文章进行几点补充，主要是从

使用pandas处理时间变量

　在使用Python进行数据分析时，经常会遇到时间日期格式处理和转换，特别是分析和挖掘与时间相关的数据。Pandas提供了强大的日期数据处理的功能，下面整理了一些使用pandas处理时间变量的常用技巧。1.生成时间序列import

量化风险定价

　量化风险管理的一个核心是风险定价，在信贷关系中，每个个体的还款意愿及还款能力都是不一样的，合理的风险定价能够为每个个体提供最符合其自身情况的风险价格，在这个基础上设计贷款能最大化贷款人的利润。目录：1.为什么

信用评分模型监控

信用评分模型监控报告可以从观察期间的稳定度（前端监控报告）与表现期间的鉴别度(后端监控报告)两个方面对各项指标进行监控。目录一、前端监控报告1.1 评分分布表(SDR) 1.2 群体稳定度指标(PSI) 1.3 变量稳定度分析 1.4

风控课程资源汇总

上滑加载更多 ↓

使用pandas进行变量衍生

用户分群与区隔变量

贷后策略效果评估

使用Apriori进行关联分析

Xgboost调参小结

用户分群与建模

风控报表之产品规划

一文了解助贷业务

风控报表之催收与呆账

审批政策中的收入和负债率核实

风控报表之授信

贷后策略的一点思考

使用pandas处理时间变量

量化风险定价

信用评分模型监控

风控课程资源汇总

用户分群与区隔变量

使用pandas处理时间变量

华为存储，用“太平洋”迎接海量数据，用深耕实现客户价值

信用微历史

海量数据的实时指标计算

不断瘦身聚焦，中兴通讯要在新历史机遇中承担更大责任

三星与中国电信珠联璧合心系天下W21 5G再展科技新风

立于科技革命浪尖之上紫光国微超级eSIM强势崛起

是什么让数据中心与中世纪古城堡和谐共处？

外部数据源汇总