CRM系統(tǒng):數(shù)據(jù)挖掘在企業(yè)CRM中的研究
數(shù)據(jù)挖掘在企業(yè)CRM中的研究
李忠
( 1 江南大學(xué); 2 常州高等職業(yè)技術(shù)學(xué)校, 江蘇常州213000)
摘要:本文主要介紹了數(shù)據(jù)挖掘的基本概念、功能分類以及數(shù)據(jù)挖掘技術(shù)在CRM中的典型應(yīng)用; 隨后文章選擇C4.5 算法
為本系統(tǒng)增加分析功能; 接著對(duì)C4.5 算法進(jìn)行了深入的研究與分析, 發(fā)現(xiàn)在計(jì)算速度以及生成結(jié)果的復(fù)雜性上有待改進(jìn), 在
此基礎(chǔ)上提出了改進(jìn)優(yōu)化的方法并用程序?qū)崿F(xiàn), 通過實(shí)驗(yàn)比較證明取得了良好的效果。在文章的最后用改進(jìn)后的C4.5 算法
為本CRM系統(tǒng)實(shí)現(xiàn)了客戶的保持分析功能。
關(guān)鍵詞: CRM; 數(shù)據(jù)挖掘; 改進(jìn)C4.5 算法; 功能; 處理
1 引言
客戶關(guān)系管理(Customer Relationship Management)的指導(dǎo)思
想就是對(duì)客戶進(jìn)行系統(tǒng)化的研究, 以便改進(jìn)對(duì)客戶的服務(wù)水平,
提高客戶的忠誠度, 并因此為企業(yè)帶來更多的利潤。這就要求
CRM系統(tǒng)要能夠在有效地獲取客戶的各種信息的同時(shí), 對(duì)客戶
的行為方式進(jìn)行深入地分析, 尋找其中的規(guī)律, 為客戶提供更
好、更個(gè)性化的服務(wù), 為企業(yè)決策提供支持。然而如何管理和分
析大量、龐雜的客戶信息, 從中找出對(duì)企業(yè)管理決策有價(jià)值的知
識(shí)則需要有更先進(jìn)的技術(shù)和工具的支持, 而數(shù)據(jù)挖掘等新興技
術(shù)的出現(xiàn), 為CRM的實(shí)施提供了良好的支持。
數(shù)據(jù)挖掘的功能以及方法有多種, 如關(guān)聯(lián)分析、分類、聚類和時(shí)
序模式等, 關(guān)聯(lián)分析可以用于交叉營銷中的連帶銷售; 聚類一般
可以用于數(shù)據(jù)挖掘前數(shù)據(jù)的預(yù)處理; 而分類是CRM中運(yùn)用最為
廣泛的一種方式, 它可以被用于客戶細(xì)分、客戶獲取等方面, 本
文將使用分類方法為CRM系統(tǒng)實(shí)現(xiàn)客戶的保持功能, 在接下來
將重點(diǎn)討論數(shù)據(jù)挖掘的CMR 中的運(yùn)用。
2 典型算法分類與選擇
目前已經(jīng)出現(xiàn)了好幾種決策樹分類算法, 如: ID3; C4.5;
CHAID; CHART; SLIQ; SPRINT; PUBLIC 等, 現(xiàn)列出與本課題相
關(guān)的具有代表性的一些算法。
ID3 算法雖然是比較經(jīng)典也是最老的一種算法, 可是它存
在許多的不足: 一是它不能處理連續(xù)屬性值, 對(duì)于連續(xù)值屬性,
它都要把該屬性離散化, 這樣就大大降低了分類的精確度; 二是
算法過程不靈活, 不能處理有空缺值的樣本集合, 這就對(duì)訓(xùn)練樣
本集合的質(zhì)量提出很高的要求。三是生成的決策樹太大, 因?yàn)閷?duì)
于每個(gè)離散屬性如果作為分裂屬性, 如果有n 個(gè)屬性值, 那么就
會(huì)長出n 個(gè)子樹。
SPRINT 算法是一種比較成熟的決策樹分類算法, 它幾乎克
服了以往已經(jīng)提出的算法中的一些缺憾, 可是該算法的側(cè)重點(diǎn)
在于處理超大形容量的數(shù)據(jù)。此算法可以不受到機(jī)器主存大小
的限制, 可以把數(shù)據(jù)在主存與輔存之間來回切換。本人認(rèn)為在本
文所建立的CRM系統(tǒng)中所處理的數(shù)據(jù)是與客戶有關(guān), 而象中小
型企業(yè)這樣的客戶容量遠(yuǎn)沒有這樣的大, 所以不建議使用該算
法。
C4.5 算法是Quinlan 的ID3 算法的改進(jìn)版本, 該算法克服
了ID3 中的缺憾, 能夠直接處理連續(xù)值屬性, 能夠處理有空缺值
的樣本集合。它從樹的根結(jié)點(diǎn)處的所有訓(xùn)練樣本開始,選取一個(gè)
屬性來區(qū)分這些樣本。對(duì)屬性的每一個(gè)值產(chǎn)生一個(gè)分支, 分支屬
性值的相應(yīng)樣本子集被移到新生成的子結(jié)點(diǎn)上, 這個(gè)算法遞歸
地應(yīng)用于每個(gè)子結(jié)點(diǎn)上, 直到結(jié)點(diǎn)的所有樣本都分區(qū)到某個(gè)類
中, 到達(dá)決策樹的葉結(jié)點(diǎn)的每條路徑表示一個(gè)分類規(guī)則。這樣自
頂向下的決策樹的生成算法的關(guān)鍵性決策是對(duì)結(jié)點(diǎn)屬性值的選
擇。該算法簡單易懂, 而且效率高, 這也正是我們所追求的目標(biāo)。
所以本文中, 我們選擇該算法為CRM實(shí)現(xiàn)客戶的保持分析功
能。
3 基于C4.5 算法的改進(jìn)
C4.5 算法雖然添加了對(duì)于有連續(xù)值的屬性的處理方法, 可
是在每個(gè)結(jié)點(diǎn)處都要對(duì)連續(xù)值進(jìn)行排序, 浪費(fèi)大量CPU 時(shí)間。
本文在C4.5 算法的基礎(chǔ)上引進(jìn)了SPRINT 算法中對(duì)于連續(xù)值的
處理方法, 采用屬性列表( attribute lists) 的方式對(duì)記錄集一次性
進(jìn)行排序。在表的數(shù)據(jù)集中, 我們在讀入內(nèi)存的過程中就將其
分解為兩個(gè)屬性的列表, 然后對(duì)有連續(xù)值的屬性進(jìn)行一次性的
排序。
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實(shí)用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營銷理念,圍繞客戶生命周期的整個(gè)過程,針對(duì)不同價(jià)值的客戶實(shí)施以客戶滿意為目標(biāo)的營銷策略,通過企業(yè)級(jí)協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達(dá)到留住客戶、提高銷售,實(shí)現(xiàn)企業(yè)利潤最大化的目的。通過對(duì)客戶進(jìn)行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個(gè)環(huán)節(jié)的自動(dòng)化程度,從而幫助企業(yè)達(dá)到縮短銷售周期、降低銷售成本、擴(kuò)大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機(jī)會(huì)和銷售渠道,最終從根本上提升企業(yè)的核心競爭力,使得企業(yè)在當(dāng)前激烈的競爭環(huán)境中立于不敗之地。