CRM系統:數據挖掘技術在CRM中應用的過程研究
數據挖掘技術在CRM中應用的過程研究
戴艷紅
( 河北政法職業學院計算機系, 石家莊050061)
[ 摘要] 本文介紹了客戶關系管理的概念, 并對數據挖掘的概念和技術方法做了簡要說明, 最后著重介紹了在客戶
關系管理中應用數據挖掘技術的過程。
[ 關鍵詞] 客戶關系管理; 數據挖掘; 電子商務
[ 中圖分類號] F270.7;F273.7 [ 文獻標識碼] A [ 文章編號] 1673- 0194( 2007) 04- 0043- 02
客戶關系管理(CRM) 的核心思想是將企業的客戶作
為最重要的企業資源, 通過完善的客戶服務和對客戶的行
為方式進行深入分析, 尋找其中的規律, 滿足客戶的需求,
提高服務水平, 保證實現客戶的終生價值。同時CRM也是
一種管理軟件和技術, 它將最佳的商業實踐與數據挖掘、
數據倉庫、OLAP 以及其他信息技術緊密結合在一起, 為企
業的銷售、客戶服務和決策支持等領域提供解決方案, 使
企業能有一個基于電子商務的面向客戶的平臺, 從而順利
實現由傳統企業模式到以電子商務為基礎的現代企業模
式的轉化。數據挖掘技術能對大量的數據及信息進行挖
掘, 從中發現潛在的關系, 并利用模型對客戶需求進行預
測, 幫助企業做出決策, 使企業獲得高額的投資回報。
一、數據挖掘的概念
數據挖掘(Data Mining,DM), 又稱數據庫中的知識發
現(Knowledge Discovery in Database,KDD), 是指從大型數
據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛
在應用價值的信息或模式。它是數據庫研究中的一個很有
應用價值的新領域, 融合了數據庫、人工智能、機器學習、
統計學等多個領域的理論和技術。從商業角度看, 數據挖
掘是一種嶄新的商業信息處理技術, 其主要特點是對商業
數據庫中的大量業務數據進行抽取、轉化、分析和模式化
處理, 從中提取輔助商業決策的關鍵知識, 即從一個數據
庫中自動發現相關商業模式。它可以描述成: 按企業既定
業務目標, 對大量的企業數據進行探索和分析, 揭示隱藏
的、未知的或驗證已知的商業規律, 并進一步模式化的數
據處理方法。數據挖掘工具能夠對將來的趨勢和行為進行
預測, 從而很好地支持人們的決策。比如, 經過對整個公司
數據庫系統的分析, 數據挖掘工具可以回答諸如“什么樣
的客戶對我們公司的郵件推銷活動最有可能做出反應, 為
什么”等類似的問題。如果將其運用到客戶關系管理中, 就
能在數據量龐大的客戶數據倉庫中, 將看似無關聯的數據
進行篩選, 凈化, 提取出有價值的客戶關系, 實現對客戶需
求做出恰當的回應, 并預測需求趨勢。
二、常用的數據挖掘方法
常用的數據挖掘方法主要包括: 分類、聚類、關聯規
則、統計回歸、偏差分析等等。
1. 分類
分類在數據挖掘中是一項非常重要的任務。分類的目
的是通過統計方法、機器學習方法( 包括決策樹法和規則
歸納法) 、神經網絡方法等構造一個分類模型, 然后把數據
庫中的數據映射到給定類別中的某一個。
2. 聚類
聚類是把一組個體按照相似性歸成若干類別, 即“物
以類聚”。它的目的是使同一類別之內的相似性盡可能大,
而類別之間的相似性盡可能小。這種方法可以用來對客戶
進行細分, 根據客戶的特征和屬性把客戶分成不同客戶
群, 根據其不同需求, 制訂針對不同客戶群的營銷策略。
3. 關聯規則
它是描述數據庫中數據項之間存在關聯的規則, 即根
據一個事物中某些項的出現可導出另一項在同一事物中
也出現, 即隱藏在數據間的關聯或相互關系。在客戶關系
管理中, 通過對企業客戶數據庫里大量數據進行挖掘, 可
以從中發現有趣的關聯關系, 例如, 買過A 商品的客戶以
后會購買B 商品。通過對這些數據進行挖掘, 獲得對顧客
購買行為極有價值的信息, 從而可以幫助企業及時把握客
戶需求, 對客戶實行交叉銷售, 為企業決策提供參考。
4. 回歸分析
回歸分析反映的是事務數據庫中屬性值在時間上的
特征, 主要用于預測, 即利用歷史數據自動推出對給定數
據的推廣描述, 從而對未來數據進行預測。它可應用于商
品銷售趨勢預測、客戶贏利能力分析和預測等。
5. 偏差分析
偏差分析側重于發現不規則和異常變化, 即與通常不
同的事件。在相類似的客戶中, 對客戶的異常變化要給予
密切關注。例如某客戶購買行為發生較大變化, 購買量較
以前大大減少, 就要對客戶的這種原因進行調查, 避免客
戶流失。
三、CRM中的數據挖掘過程
為使CRM系統建立良好的模型, 在實施數據挖掘之
前, 先確定采取什么樣的步驟, 每一步都做什么, 達到什么
樣的目標是必要的, 有了好的計劃才能保證數據挖掘有條
不紊地實施并取得成功。
雖然把各個步驟按順序排列, 但要注意數據挖掘過程
并不是線性的, 要取得好的結果就要不斷重復這些步驟。
比如在“分析數據”時可能會發現在“建立數據挖掘數據
庫”時做的不夠好, 需要添加一些新的數據。
有效的CRM中的數據挖掘的基本步驟為:
1. 定義商業問題
每一個CRM應用程序都有一個或多個商業目標, 要
想充分發揮數據挖掘的價值, 必須要對目標有一個清晰明
確的定義, 即決定到底想干什么。
2. 建立數據挖掘庫
連同下面的兩個步驟, 這三步構成了數據預處理的核
心。這三步比其他所有的步驟加在一起所花的時間和精力
還多。數據準備和模型建立之間可能反復進行, 因為從模
型中會學到新的東西, 而這又需要修改數據。數據準備階
段也要占去全部數據采集過程的80%到90%的時間和努
力。
應該把要挖掘的數據都收集到一個數據庫中。注意這
并不是說一定要使用一個數據庫管理系統。根據要挖掘的
數據量的大小、數據的復雜程度、使用方式的不同, 有時一
個簡單的平面文件或電子表格就足夠了。
需要建立獨立的數據挖掘庫的另一個理由是, 數據倉
庫可能不支持對數據進行各種復雜分析所需的數據結構,
包括對數據進行統計查詢, 多維分析和各種復雜的圖表及
其可視化。
建立數據挖掘庫可分成下面幾個部分:
(1) 數據收集。確定要挖掘的數據源。
(2) 數據描述。描述每個文件和數據庫表的內容。
(3) 數據提取。把一些冗余或無關的數據除去, 選擇用
于數據挖掘的數據。在數據提取過程中, 可以利用數據庫
的查詢功能以加快數據的提取速度。
(4) 數據清理。了解數據庫中字段的含義及其與其他
字段的關系。對提取出的數據進行合法性檢查并清理含有
錯誤的數據。
(5) 合并與整合。大部分情況下需要的所有數據是分
布在不同的數據庫中的。數據合并與整合把來自不同數據
源的數據合并到同一個數據挖掘庫中, 并且要使那些本來
存在沖突和不一致的數據一致化。
3. 為建模準備數據
這是建立模型之前的最后一步數據準備工作。可以把
此步驟劃分成4 個部分:
(1) 選擇變量。理想情況下, 可選擇所擁有的全部變
量, 輸入到數據挖掘工具中, 找出哪些是最好的預測變量。
實際上這樣做并不是很好, 其中一個原因是建立模型的時
間隨著變量的增加而增加;另一個原因就是盲目性, 包括無
關緊要的數據列被加入, 卻很少甚至不能提高預測能力。
(2) 構建新的預測依據。例如, 預測信用風險時, 使用
債務—收入的比率而不是單獨使用債務或收入作為預測
變量, 可以產生更準確的結果, 并且更容易理解。
(3) 選取一個子集或標本來建立模型。建立數據挖掘
模型時, 要從大量數據中取出一個與問題相關的樣板數據
子集, 而不是動用全部數據。使用恰當的隨機挑選的子集
并不會引起信息不足, 反而能減少數據處理量, 節省系統
資源, 而且能通過數據的篩選, 使規律性更容易凸現出來。
(4) 轉換變量。使之和建立模型的運算法則一致。
4. 建立模型
建立模型是一個反復的過程。需要仔細考察不同的模
型以判斷哪個模型更有用。在尋找好的模型的過程中學到
的東西, 會啟發用戶修改數據, 甚至改變最初對問題的定
義。
為保證得到的模型具有較好的精確度和健全性, 需要
一個定義完善的訓練—驗證協議, 有時也稱為指導性學
習。主要思想就是先用一部分數據建立模型, 然后再用剩
下的數據來測試和驗證這個得到的模型。
5. 評價模型
對模型的評價依賴于需要解決的問題, 由領域專家對
模型的精確性和有效性進行評價。
6. 實施
把數據挖掘模型所發現的知識應用到實際工作中, 為
決策提供支持。如根據得到的知識可以設置某些觸發器,
當滿足條件時進行特殊處理。
四、結論
本文在探討CRM的基礎上引入數據挖掘技術, 詳細
闡述了該技術在客戶關系管理的重要應用及其實現過程。
數據挖掘技術在以客戶為中心的客戶關系管理中扮演著
越來越重要的角色, 隨著理論的進一步發展和深化, 必然
會帶給CRM更為廣泛的應用前景和市場價值, 提高企業
的競爭力。
主要參考文獻
[ 1] 趙紅宇. CRM中的數據挖掘技術[M] . 商場現代化, 2006, ( 6) ( 上
旬刊) .
[ 2] 趙靜,和斌. 基于數據挖掘的客戶關系管理系統的構建[ J] . 情報
技術, 2005, ( 11) .
[ 3] 吳志軍. 客戶關系管理中的數據挖掘[ J] . 商場現代化, 2005, ( 9)
( 中旬刊) .
[ 4] 顏炎. 構建基于數據挖掘的客戶關系管理系統[M] . 長沙: 國防科
技大學出版社, 2002.
[ 5] 陳文偉, 黃金才. 數據倉庫與數據挖掘[M] . 北京: 人民郵電出版
社, 2004.