python特征生成中字符類型有截取、字符長(zhǎng)度和頻次。
一、python特征生成中字符類型
1、截取
當(dāng)字符類型的值過多,通??蓪?duì)字符類型變量做截取,以減少模型過擬合。如具體的家庭住址,可以截取字符串到城市級(jí)的粒度。
2、字符長(zhǎng)度
統(tǒng)計(jì)字符串長(zhǎng)度。如轉(zhuǎn)賬場(chǎng)景中,轉(zhuǎn)賬留言的字?jǐn)?shù)某些程度可以刻畫這筆轉(zhuǎn)賬的類型。
3、頻次
二、python特征類型中字符使用
1、截取第一位字符串
df['I1_0']=df['I1'].map(lambdax:str(x)[:1])
2、字符長(zhǎng)度
df['I1_len']=df['I1'].apply(lambdax:len(str(x)))
display(df.head())
3、字符串頻次
df['I1'].value_counts()
以上就是python特征生成中字符類型有哪些?希望能對(duì)大家有所幫助,更多Python學(xué)習(xí)教程請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。