CRM系統(tǒng):基于SAS 數(shù)據(jù)挖掘技術(shù)的航空CRM系統(tǒng)分析
基于SAS 數(shù)據(jù)挖掘技術(shù)的航空CRM系統(tǒng)分析
奉國和
(華南師范大學(xué)經(jīng)濟管理學(xué)院信息管理系 廣州 510006)
摘 要 數(shù)據(jù)挖掘是實施客戶關(guān)系管理強有力的手段,而SAS 是一整套有效的數(shù)據(jù)挖掘技術(shù)平臺。通過運用SAS 設(shè)
計三層客戶關(guān)系管理應(yīng)用系統(tǒng)和與航空業(yè)務(wù)緊密相關(guān)的幾大數(shù)據(jù)挖掘模塊,幫助公司設(shè)計有針對性的服務(wù)、銷售與管
理辦法,提高客戶服務(wù)水平,大幅度降低客戶維護費用與促銷成本,爭取公司利潤最大化。
關(guān)鍵詞 客戶關(guān)系管理 SAS 數(shù)據(jù)挖掘 航空系統(tǒng)
航空業(yè)激烈競爭,促使航空公司采用先進技術(shù)加大管理力
度,爭取優(yōu)質(zhì)服務(wù)。而實施客戶關(guān)系管理系統(tǒng)是公司提高管理
的重要一環(huán),其中數(shù)據(jù)挖掘是實施客戶關(guān)系管理系統(tǒng)的核心技
術(shù),尋找成熟的數(shù)據(jù)挖掘技術(shù)和平臺快速構(gòu)建公司的信息分析
應(yīng)用系統(tǒng)是每個企業(yè)的期望。SAS 系統(tǒng)是大型集成式軟件包,
在數(shù)據(jù)管理、數(shù)據(jù)挖掘、查詢分析等方面具有很強的優(yōu)勢,能非
常方便地構(gòu)建企業(yè)信息分析應(yīng)用系統(tǒng)。運用SAS 搭建航空公
司的客戶關(guān)系管理系統(tǒng),為航空公司優(yōu)化決策管理必將提供有
力保障。
1 數(shù)據(jù)挖掘理論
數(shù)據(jù)挖掘(Data Mining) 是指從大量的數(shù)據(jù)中提取出可信、
新穎、有效并能被人們所理解的、潛在的模式、規(guī)律或趨勢的高
級處理過程。它融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等
多個領(lǐng)域的理論和技術(shù),在理論研究領(lǐng)域也被稱為數(shù)據(jù)庫中的
知識發(fā)現(xiàn)( Knowledge Discovery in Database ,KDD) 。數(shù)據(jù)挖掘模
式一般分為以下幾種類型:
1. 1 概念或類描述 概念或類描述通過數(shù)據(jù)特征化即匯總
所研究的數(shù)據(jù)、數(shù)據(jù)區(qū)分將目標(biāo)與一個或多個比較類比較、數(shù)
據(jù)特征化和比較得到。
1. 2 關(guān)聯(lián)分析 關(guān)聯(lián)分析的目的就是為了挖掘出隱藏在數(shù)
據(jù)間的相互關(guān)系。在數(shù)據(jù)挖掘研究領(lǐng)域,對于關(guān)聯(lián)分析的研究
開展得比較深入,人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如
APRIORI、STEM、AIS、DHP 等算法。
1. 3 序列模式分析 序列模式分析和關(guān)聯(lián)分析相似,其目
的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在
于分析數(shù)據(jù)間的前后序列關(guān)系。序列模式分析描述的問題是:
在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一
組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回
該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也
需要由用戶輸入最小置信度C 和最小支持度S。
1. 4 分類和預(yù)測分析 假定記錄集合和一組標(biāo)記( TAG) ,
所謂標(biāo)記是指一組具有不同特征的類別。分類分析首先為每
一個記錄賦予一個標(biāo)記,即按標(biāo)記分類記錄,然后檢查這些標(biāo)
記的記錄,描述出這些記錄的特征。這種描述可能是顯式的,
例如一組規(guī)則定義;或者是隱式的,例如一個數(shù)學(xué)模型或公式。
目前,已有很多種分類分析模型得到應(yīng)用,其中的幾種典型模
型為線性回歸模型、決策樹模型、基于規(guī)則模型、神經(jīng)網(wǎng)絡(luò)模型
和支持向量機模型。
1. 5 聚類分析 與分類分析不同,聚類分析輸入的是一組
未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道。聚類分
析就是通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,
合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分
類規(guī)則是由聚類分析工具決定的。聚類分析的方法很多,其中
包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、模糊聚類法、運
籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有
不同的劃分結(jié)果。
1. 6 孤立點分析 孤立點分析是一種發(fā)現(xiàn)異常數(shù)據(jù)的方
法,數(shù)據(jù)庫中往往包含一些數(shù)據(jù)對象,他們與數(shù)據(jù)的一般行為
或模型不一致,這些數(shù)據(jù)對象就是孤立點(Outlier) 。應(yīng)用中異
常的數(shù)據(jù)點可能比正常數(shù)據(jù)點更有用或者更有趣,比如孤立點
可以發(fā)現(xiàn)信用卡欺騙,也可以發(fā)現(xiàn)黃金客戶。
1. 7 演變分析 演變分析描述行為隨時間變化的對象的規(guī)
律或趨勢,包括時間序列數(shù)據(jù)分析、序列或周期模式匹配等。
數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測模型而不是回顧型
的模型,表1 是傳統(tǒng)工具與數(shù)據(jù)挖掘工具比較。
2 SAS 數(shù)據(jù)挖掘工程方法
美國SAS 研究所在多年的數(shù)據(jù)處理研究工作中積累了一
套行之有效的數(shù)據(jù)挖掘方法———SEMMA。
2. 1 Sample :數(shù)據(jù)取樣 當(dāng)進行數(shù)據(jù)挖掘時,先要從企業(yè)大
量數(shù)據(jù)中取出一個與要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是
動用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān),一
定要保證取樣的代表性、真實性、完整性和有效性。這樣才能
通過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。
2. 2 Explore :數(shù)據(jù)特征探索、分析和予處理 當(dāng)拿到了一個
樣本數(shù)據(jù)集后,分析它是否達(dá)到原來設(shè)想的要求,其中有沒有
什么明顯的規(guī)律和趨勢,有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀
態(tài),因素之間有什么相關(guān)性,它們可區(qū)分成怎樣一些類別,這都
是要首先探索的內(nèi)容。進行數(shù)據(jù)特征的探索、分析,最好是能
進行可視化的操作,如SAS 的SAS/ INSIGHT 和SAS/ SPEC2
TRAVIEW。這兩個產(chǎn)品提供了可視化數(shù)據(jù)操作的最強有力的
工具、方法和圖形。它們不僅能做各種不同類型的統(tǒng)計分析顯
示,而且可做多維、動態(tài)甚至旋轉(zhuǎn)的顯示。應(yīng)用這兩個工具對
樣本數(shù)據(jù)進行預(yù)分析,推測主要的數(shù)據(jù)、異常趨勢和規(guī)律性。
2. 3 Modify :問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇 通過Sam2
ple 和Explore 兩步之后,對原來要解決的問題可能會有了進一
步的明確,這時要盡可能對問題解決的要求能進一步量化。在
問題進一步明確化的基礎(chǔ)上,可以按照問題的具體要求來審視
數(shù)據(jù)集,看它是否適應(yīng)問題的需要。針對問題的需要,可能要
對數(shù)據(jù)進行增刪,也可能按照你對整個數(shù)據(jù)挖掘過程的新認(rèn)
識,組合或者生成一些新的變量,以體現(xiàn)對狀態(tài)的有效描述。
SAS 對數(shù)據(jù)強有力的存取、管理和操作的能力保證了對數(shù)據(jù)的
調(diào)整、修改和變動的可能性。
2. 4 Model :模型的研發(fā)、知識的發(fā)現(xiàn) 數(shù)理統(tǒng)計方法是數(shù)據(jù)
挖掘工作中最常用的主流技術(shù)手段。SAS/ STAT 軟件包中就
覆蓋了所有的實用數(shù)理統(tǒng)計方法,提供了十多個過程可進行各
種不同類型模型、不同特點數(shù)據(jù)的回歸分析,如正交回歸、響應(yīng)
面回歸、Logistic 回歸、非線性回歸等,且有多種形式模型化的方
法選擇。可處理的數(shù)據(jù)有實型數(shù)據(jù)、有序數(shù)據(jù)和屬性數(shù)據(jù),并
能產(chǎn)生各種有用的統(tǒng)計量和診斷信息。在方差分析方面,SAS/
STAT 為多種試驗設(shè)計模型提供了方差分析工具,它還有處理
一般線性模型和廣義線性模型的專用過程。在多變量統(tǒng)計分
析方面,SAS/ STAT 為主成分分析、典型相關(guān)分析、判別分析和
因子分析提供了許多專用過程。SAS/ STAT 含有多種聚類準(zhǔn)
則的聚類分析方法,利用SAS/ STAT 可進行生存分析。
這些工具不僅能揭示企業(yè)已有數(shù)據(jù)間的新關(guān)系、隱藏著的
規(guī)律性,而且能反過來預(yù)測它的發(fā)展趨勢,或是在一定條件下
將會出現(xiàn)什么結(jié)果。另外,SAS 人工神經(jīng)元網(wǎng)絡(luò)和決策樹的方
法結(jié)合起來可用于從相關(guān)性不強的多變量中選出重要的變量。
2. 5 Assess :模型和知識的綜合解釋和評價 從上述過程中
將會得出一系列的分析結(jié)果、模式或模型。若能得出一個直接
的結(jié)論當(dāng)然很好,但更多的時候會得出對目標(biāo)問題多側(cè)面的描
述。這時就要能很好地綜合它們的影響規(guī)律性,提供合理的決
策支持信息。所謂合理,實際上往往是要你在所付出的代價和
達(dá)到預(yù)期目標(biāo)的可靠性的平衡上作出選擇。假如在數(shù)據(jù)挖掘
過程中就預(yù)見到最后要進行這樣的選擇的話,那么最好把這些
平衡的指標(biāo)盡可能地量化,以利于綜合抉擇。
決策支持信息適用性如何,是個十分重要的問題。SAS 軟
件除了在數(shù)據(jù)處理過程中提供給許多檢驗參數(shù)外,評價的另一
辦法是直接使用原來建立模型的樣板數(shù)據(jù)來進行檢驗。一般
來說,在這一步得到較好評價,說明確實從這批數(shù)據(jù)樣本中挖
掘出了符合實際的規(guī)律性。
3 基于SAS 的系統(tǒng)構(gòu)架
整個系統(tǒng)基于B/ S 結(jié)構(gòu),前端應(yīng)用基于Java 技術(shù)實現(xiàn),系
統(tǒng)分為數(shù)據(jù)服務(wù)器、Web 應(yīng)用服務(wù)器、Web 客戶端三個層次。
應(yīng)用服務(wù)器起到封裝業(yè)務(wù)邏輯、支持前端應(yīng)用、隔離用戶和數(shù)
據(jù)等作用。在工作壓力不大的情況下,數(shù)據(jù)服務(wù)器和應(yīng)用服務(wù)
器可以部署到同一臺物理服務(wù)器上。SAS 平臺的B/ S 系統(tǒng)架
構(gòu)圖如圖1 所示。
圖1 SAS 平臺的B/ S 系統(tǒng)架構(gòu)圖
在B/ S 架構(gòu)下,應(yīng)用服務(wù)器采用SAS/ AppDev Studio 開發(fā)
套件。SAS/ AppDev Studio 套件是SAS 公司的基于Java 中間件
技術(shù)的應(yīng)用服務(wù)器組件包。其中包括了Java 開發(fā)環(huán)境、應(yīng)用/
Web 服務(wù)器產(chǎn)品,以及一整套功能全面的SAS 擴展類庫。通過
這套類庫可以支持各種通用的或SAS 專有的訪問接口,借助這
些接口可以實現(xiàn)各種數(shù)據(jù)訪問和統(tǒng)計分析功能。數(shù)據(jù)服務(wù)器
底層的通訊服務(wù)組件換成了傳統(tǒng)的SAS/ SHARE 和SAS/ CON2
NECT。借助SAS/ AppDev Studio 套件中的接口支持,前臺應(yīng)用
可以通過JDBC 接口連接SAS/ SHARE 組件獲得數(shù)據(jù)服務(wù),或
通過J - CONNECT 接口連接SAS/ CONNECT 組件獲得計算服
務(wù)。
4 系統(tǒng)總體設(shè)計目標(biāo)
4. 1 數(shù)據(jù)通道集中、獨立 建立集中、獨立的數(shù)據(jù)采集通
道,實現(xiàn)相關(guān)業(yè)務(wù)數(shù)據(jù)的自動獲取和連續(xù)積累,采用數(shù)據(jù)統(tǒng)一
管理的整體構(gòu)想,通過對業(yè)務(wù)系統(tǒng)數(shù)據(jù)的自動抽取、整合、分
析、加工,建立各類業(yè)務(wù)管理模型。
4. 2 確保實現(xiàn)資源共享 通過辦公自動化系統(tǒng)已有的內(nèi)部
網(wǎng)絡(luò)結(jié)構(gòu),可以實時查詢各主題的分析數(shù)據(jù)報表和數(shù)據(jù)分析報
告,利用數(shù)據(jù)集中的優(yōu)勢,實現(xiàn)數(shù)據(jù)統(tǒng)一管理。
4. 3 集中采用元數(shù)據(jù)管理,實現(xiàn)功能參數(shù)化 功能邏輯的
改變不影響到程序,只需修改參數(shù),這樣可以及時響應(yīng)客戶的
新需求,提高工作效率。
4. 4 安全機制 建立完善的系統(tǒng)安全和數(shù)據(jù)安全控制機
制,對用戶采取集中授權(quán)的管理模式,基本實現(xiàn)安全管理的統(tǒng)
一化。
4. 5 數(shù)據(jù)挖掘技術(shù) 利用商業(yè)智能技術(shù)和數(shù)據(jù)挖掘技術(shù)對
業(yè)務(wù)數(shù)據(jù)進行及時、科學(xué)的匯總、分析和預(yù)測,實現(xiàn)分析自動
化,為領(lǐng)導(dǎo)分析決策提供真實、全面和準(zhǔn)確的依據(jù)。
4. 6 經(jīng)濟效益性 分析系統(tǒng)的建設(shè)是一項復(fù)雜的、長期不
斷發(fā)展的系統(tǒng)工程,因此在規(guī)劃建設(shè)過程中必須遵循長遠(yuǎn)規(guī)
劃、逐步建設(shè)的指導(dǎo)方針。同時,在技術(shù)實現(xiàn)上,應(yīng)采