CRM系統(tǒng):聚類模型在客戶關(guān)系管理中的應(yīng)用以及對特征提取的探討
聚類模型在客戶關(guān)系管理中的應(yīng)用
以及對特征提取的探討
譚元戎, 孫劍平
(南京理工大學(xué)經(jīng)濟管理學(xué)院, 南京210094)
摘要:隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展和信息的增長,企業(yè)和公司開始運用數(shù)據(jù)挖掘技術(shù)來分析和處理他們在商業(yè)活
動中積累的關(guān)于客戶的大量數(shù)據(jù),以從中發(fā)現(xiàn)重要的規(guī)律,來指導(dǎo)公司的營銷策略。客戶聚類就是一個重要的問
題。它根據(jù)客戶的個人屬性和行為屬性,把相似的客戶群聚集起來。公司可以根據(jù)不同類型的客戶作出不同的營
銷策略。本文討論了有關(guān)聚類模型的兩個問題。第一,介紹了兩種經(jīng)典的聚類算法,以及他們的復(fù)雜度。并討論它
們在客戶關(guān)系管理中的應(yīng)用和有效性;第二,討論了特征提取在聚類過程中的必要性,并給出了如何在聚類模型中
進行特征提取的有效算法。
關(guān)鍵詞:聚類;客戶關(guān)系管理;數(shù)據(jù)挖掘;特征提取;非監(jiān)督學(xué)習(xí)
中圖分類號: F22419 文獻標(biāo)志碼:A
1 引言
隨著數(shù)據(jù)挖掘技術(shù)的成熟,以及客戶的個人信
息和行為數(shù)據(jù)的積累,企業(yè)和公司開始重視運用數(shù)
據(jù)挖掘技術(shù)來分析這些數(shù)據(jù),希望從中得到有用的
知識和規(guī)律,來指導(dǎo)公司的營銷策略和發(fā)展計劃。
因此,數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理[1 ] 領(lǐng)域中找到
了很重要的應(yīng)用。
例如,銀行有一個數(shù)據(jù)庫來保存客戶數(shù)據(jù)。包
括客戶的個人信息,如性別,年齡,收入水平等,以及
客戶的行為數(shù)據(jù),如客戶在銀行開的賬戶類型,每月
的存儲活動,信用卡客戶的刷卡紀錄等。移動公司
可以掌握用戶的個人信息,以及行為數(shù)據(jù):每月通話
的頻率,時間長短,通話類型(本地,長途,漫游) 等。
綜合用戶的個人信息和行為數(shù)據(jù),公司可以分析客
戶的消費特性。
基于對客戶的分析,對客戶群體進行聚類,是一
個重要的問題。聚類就是對客戶群體的一個劃
分———把相似的客戶歸為一類,把不相似的客戶劃
分到不同的類中。比如移動客戶中,如果每月話費
在1 000 元以上,有很多長途或者漫游的呼叫,這類
客戶通常是經(jīng)常出差,公務(wù)繁忙的高額漫游客戶群;
如果每月話費在100 元內(nèi),短信數(shù)量很大而通話比
重較小的,這類客戶往往是工作地點比較固定,并且
比較經(jīng)濟型消費的低端客戶群;如果用GPRS 上網(wǎng)
量大消費額高,這類客戶就是GPRS 大客戶群。如
果企業(yè)能夠?qū)蛻暨M行有效的聚類,識別出客戶子
群體,就能夠根據(jù)每種子群體,總結(jié)出他們有代表性
的屬性,并針對他們的消費行為,設(shè)計營銷策略。對
移動公司而言,可以針對不同客戶群,設(shè)計不同的優(yōu)
惠移動套餐,以吸引相應(yīng)的消費人群。
聚類(clustering) 算法和分類(classification)
算法的一個重要的區(qū)別是,聚類是一種非監(jiān)督的學(xué)
習(xí)(unsupervised learning) , 而分類是一種有監(jiān)督
的學(xué)習(xí)( supervised learning)1 在分類問題中,數(shù)據(jù)
除了屬性之外,還有類屬性,標(biāo)示數(shù)據(jù)屬于哪一類。
分類算法就是根據(jù)這些訓(xùn)練數(shù)據(jù)來建立一個分類模
型,模型的參數(shù)調(diào)整到使得模型可以最好的區(qū)分訓(xùn)
練數(shù)據(jù)。而聚類問題只有數(shù)據(jù)的屬性值,沒有類屬
性。并且用戶事先不知道有幾個子類。聚類算法是
通過數(shù)據(jù)屬性的分布而找出相對密集的點,作為一
個子類,相對分散的點作為其他的子類。
聚類模型為分析客戶數(shù)據(jù)提供了一種有力的工
具。在實際應(yīng)用中,客戶數(shù)據(jù)通常只有屬性,沒有類
屬性。或者類別通常由客戶根據(jù)主題而定義,并人
為地給每個數(shù)據(jù)點賦上類屬性值。因此,給訓(xùn)練數(shù)
據(jù)集人工的賦上類屬性是很耗時,并且很主觀的。
而聚類算法就沒有這樣的要求,因此聚類算法很適
合用于分析無類屬性值的數(shù)據(jù)。
但是,運用聚類算法也有一些難點。①有些算
法需要用戶預(yù)先指定子類的個數(shù)。可是用戶往往面
對著大量數(shù)據(jù),很難準(zhǔn)確地估計出這些數(shù)據(jù)可以自
然的分割成幾個子類。而且,聚類的結(jié)果也會因為
用戶指定子類的個數(shù)不同而不同。②數(shù)據(jù)里有很多
屬性。可是有些對于聚類并不相關(guān),比如說,用戶的
家庭住址。怎樣有效的選擇相關(guān)的屬性進行聚類,
需要在聚類之前對數(shù)據(jù)進行分析,進行特征提取。
③數(shù)據(jù)里有連續(xù)的屬性, 例如工資,年齡;也有離散
的屬性,例如性別,職位。對連續(xù)屬性計算距離很自
然,但是對于離散的屬性,很難定義不同屬性值之間
的距離。④不同的連續(xù)屬性,他們的取值有不同的
范圍。比如說,工資通常在(1 000 ,10 000) 間取值,
而年齡通常在(18 ,80) 間取值。如果兩個數(shù)據(jù)點,他
們的工資差別是2 000 ,而年齡差別是5 , 如果把這
兩個距離簡單的相加,那么在工資屬性上的距離會
大大超過年齡的差距,從而削弱年齡這個屬性的影
響力。因此,在聚類之前,要先對各屬性進行歸一化
(normalization) 。一種辦法是把每個連續(xù)的屬性值
都歸一化到一個統(tǒng)一的區(qū)間,比如[ 0 ,1 ]之間。
作者認為,在上面提到的對聚類的數(shù)據(jù)進行特
征提取是一個很重要、值得研究的問題。在數(shù)據(jù)挖
掘或者機器學(xué)習(xí)的領(lǐng)域中,絕大部分的對特征提取
問題進行研究的工作都是在有監(jiān)督學(xué)習(xí)的框架下,
比如分類算法中, 決策樹C415[2 ] 用Information
Gain 來進行特征提取。然而,聚類問題屬于非監(jiān)督
學(xué)習(xí)。在這種情況下進行特征提取,難度會大大增
加,由于缺乏類屬性的信息,因此不能給每個單獨的
特征給出一個有效性的衡量。
盡管使用聚類算法有這些難度,它還是給用戶
分析公司的客戶數(shù)據(jù)提供很好的模型。公司可以根
據(jù)客戶在屬性上的差別,把他們分成不同的子類。
然后分析每個子類的特點。本文將討論兩種重要的
聚類算法,然后討論如何將它們運用到客戶關(guān)系管
理的實例中。再給出在聚類問題中(非監(jiān)督學(xué)習(xí)) 進
行特征提取的算法。本文將按照以下的結(jié)構(gòu)組織。
第二節(jié)討論兩種重要的聚類算法,他們的優(yōu)缺點,以
及他們的時間復(fù)雜度。這些算法將作為分析客戶子
群體的重要模型。第三節(jié)討論將聚類算法運用到客
戶聚類問題上的步驟,和每一步應(yīng)注意的問題。第
四節(jié),介紹聚類問題中的特征提取算法。第五節(jié)用
一些實驗來驗證聚類算法和特征提取算法。第六節(jié)
給出結(jié)論并結(jié)束全文。
2 聚類模型
聚類算法根據(jù)不同的方法,可以分成以下幾種
類型: 基于劃分的,例如K - Means [3 ] , K - Me2
doids [4 ] ; 基于層次的,例如BIRCH [5 ] , CURE [6 ] ;
基于密度的, 例如DBSCAN[7 ] , OPTICS [8 ]1 在這
一節(jié)我們將詳細介紹K - Means 算法,并討論它的
一個改進版本,并分析它們的復(fù)雜度。
K- Means 屬于基于劃分的聚類算法。其基本
思路是,選擇K 個數(shù)據(jù)點作為子類的中心,然后根
據(jù)所定義的距離的衡量,把其余的點都劃分到不同
的子類。K2Means 是聚類模型中最有代表性的一
個算法。它的思路是: ①隨機的挑選K 個數(shù)據(jù)點作
為初始的中心; ②把每一個數(shù)據(jù)點歸到離它最近的
中心; ③對每一個子類,計算它們的屬性值的平均
值,把算出的平均值作為新的中心; ④重復(fù)步驟②,
直到每一個數(shù)據(jù)點的歸類都不再變化。K2Means
的好處在于它的時間復(fù)雜度比較低,是O ( t kn) , t
是算法循環(huán)的次數(shù),k 是子類的個數(shù),n 是數(shù)據(jù)點的
個數(shù)。通常t , k < < n , 因此K - Means 可以看成
是數(shù)據(jù)點個數(shù)的線性復(fù)雜度。但是K2Means 算法
的最終結(jié)果常常因為初始化中心的不同而不同。K
- Means 實際上是一個EM ( Expectation2Maximi2
zation) [ 9 ] 算法,所以它的結(jié)果是一個局部最優(yōu)解,而
不能保證全局最優(yōu)解。另一個問題是每一步在計算
每個子類的平均值。對于離散值,如何定義平均值
是一個問題。而且K2Means 算法對于容易受到數(shù)
據(jù)中的噪音影響總體的聚類效果, 比如說,有一個
數(shù)據(jù)點,它的某一個屬性值的值異常的大,用這個屬
性值計算出來的平均值會影響整個數(shù)據(jù)的分布,從
而影響聚類的結(jié)果。
K2Medoids 是對K2Means 的一個改進。算法
的思路基本相同,但是在每一步不用子類中數(shù)據(jù)點
的平均值作為子類的中心,而是選擇子類中最中心
的數(shù)據(jù)點作為這個子類的中心。K2Medoids 的算法
如下: ①隨機的選擇K 個數(shù)據(jù)點作為初始的中心;
②選一個非中心的數(shù)據(jù)點A 去代替一個中心B ,計
算這個代替會不會在帶來更好的聚類效果。如果
是,用A 代替B 作為中心; ③重復(fù)步驟②,直到子類
的中心不再變化。K2Medoids 比K2Means 能夠更
好的處理數(shù)據(jù)中的噪音,因為用一個實際的數(shù)據(jù)點
作為子類的中心,比用一個子類的平均值作中心,會
更少的受數(shù)據(jù)中的噪音影響。但是K - Medoids 時
間復(fù)雜度比K- Means 高,是O( k ( n - k) 2 ) , n 是數(shù)
據(jù)點的個數(shù),k 是子類的個數(shù)。因此對于小的數(shù)據(jù)
集, K2Medoids 效果很不錯,但是對于大的數(shù)據(jù)集,
效率卻不夠高了。
強力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標(biāo)的營銷策略,通過企業(yè)級協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達到留住客戶、提高銷售,實現(xiàn)企業(yè)利潤最大化的目的。通過對客戶進行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個環(huán)節(jié)的自動化程度,從而幫助企業(yè)達到縮短銷售周期、降低銷售成本、擴大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機會和銷售渠道,最終從根本上提升企業(yè)的核心競爭力,使得企業(yè)在當(dāng)前激烈的競爭環(huán)境中立于不敗之地。
關(guān)鍵詞:CRM,CRM系統(tǒng),CRM軟件,客戶關(guān)系管理,客戶管理軟件,客戶管理系統(tǒng),客戶關(guān)系管理軟件,客戶關(guān)系管理系統(tǒng)