▌好測驗的四個標準
大家在選擇人才測評工具的時候不是隨隨便便選的,而是一定要有過硬的理由。所以好的測評工具應達到四個標準。第一個是信度。第二個是效度。第三個是效用,即,我選擇的測評工具是不是有投資回報。在美國還存在一個問題是法律風險。美國有很多少數族群,尤其是黑人,使用這些測試有時會讓他們感覺被歧視。如果公司拿不出證據來證明所用的測試工具是合法的,就有可能被控非法歧視,引發很大的經濟賠償。所以在測試工具的使用上規避法律風險也是非常重要的。我回國前曾在AT&T工作過兩年,因此很了解這些情況。第四個是可行性。測評工具如果在操作上很復雜的話,會給實際運用帶來不便。為什么最近一段時間人格/個性測評工具非常流行呢,因為它相對來說比較好操作,在網上測試即可。而且在線的個性人格測評對所有員工都是適用的。但像人才評價中心一類的操作就比較復雜、成本也相對較高,所以使用的范圍就大大受到限制。
信度和效度的基本概念
按照國際標準(也就是美國標準),信度系數大于0.9的測評工具是優秀的測評工具。一般來說,業界通常將信度系數的低限設定為0.7,如果信度達不到這個低限,就意味著測評工具需要修改。美國勞工部專門有一個指南(見表1),幫助企業選擇測評工具。
表1:
信度系數 | 解釋準則 |
≥0.90 | 優秀 |
0.80-0.89 | 良好 |
0.70-0.79 | 合格 |
<0.70 | 適用性有限,需修改 |
在國內,大家對MBTI非常了解。但MBTI的信度恰恰是很成問題的。大家的資料上有篇文章叫做《告別MBTI》,是沃頓商學院格蘭特教授寫的。他前后兩次體驗了MBTI,但兩次的測試結果完全不一樣。第一次的測試結果是INTJ(內向-直覺-思考-判斷),但是過了幾個月再做測試就變成了ESFP(外傾-感覺-情感-知覺)。同樣一個人,短短幾個月之內性格就發生了這么大的變化,是不太可能的。這說明MBTI的重測信度是經不住嚴格檢驗的,學術界對這個局限性也有很多批評。所以在美國,類似的工具人們就不敢輕易使用,因為會有法律上的風險。MBTI的使用手冊開宗明義就講到該測驗是不能用于人員選拔的。
接下來說說效度的概念。我這里參照的是Page博士之前在明尼蘇達大學授課用的教材。效度分為幾個類型。
第一個是表面效度
測評工具要在表面上讓被評人覺得這是在測試所要的心理特性(如個性)。
第二個是內容效度
情景模擬測試的內容效度通常很高,因為情景模擬都是通過分析工作崗位職責和工作內容而提煉出來的。所以它測試的內容和實際的工作是接近的。
第三個是結構效度
它是指一個測量工具是否測量了它本應測量的內容。例如Page博士的WBI是基于大五人格模型開發的,我們對三個國家(美國、中國和泰國)的測試數據都做了探索性因素分析,來檢驗WBI的五維度結構效度。結果都驗證了WBI能明確檢測出人格的五個維度。
我想重點說說第四種類型的效度,也是實證的效度,它可以分為同時效度和預測效度。
測評工具對企業最大的幫助就在于它能預測員工未來的工作表現。選拔員工的時候,企業運用某個測評工具測得一個分數,過了三個月、六個月或者一年以后,把員工的工作表現和之前的測試結果做一個相關,這就叫預測效度設計。但是對于企業來說,預測效度設計是有風險的,因為在研究階段,企業必須將參加測試的候選人不經篩選地招進來,才能做業績跟蹤;而如果將不合適的員工招進來跟蹤數月,實際上已經給企業帶來了損失。所以,大多數企業并不愿意這么做,只有少數愿意支持嚴謹研究的企業才會愿意(例如上世紀50年代著名的AT&T評價中心效度研究)。
因此,要證明一個測評工具是否有效,也可以對企業現有的員工進行測評,看測評工具能否區分出好的員工和差的員工,這樣也能看出一個測評工具能否預測員工未來的工作表現。這就叫做同時效度設計,雖然它也同樣存在局限性。
除了表面效度沒有價值以外,其它四種效度都是有實際價值、并且可以在法庭上作為證據使用的(參考美國工業組織心理學會的正式文件)。從商業邏輯上來說,雇主采用選拔的程序、工具來挑選優秀的人才,并預期他們未來給企業帶來更好的業績,這是正當、合理的要求。
在美國,選用測評工具進行人員篩選會存在非法歧視的風險。企業在選擇錄用/不錄用某個人的時候,必須要證明篩選過程不存在非法歧視。此時,如果測評工具能提供效度證據,就可避免法律訴訟的風險;如果不能提供效度證據,或無法自證沒有歧視,就可能被判高額賠償。例如專門負責托福和GRE的美國教育考試服務中心(ETS)就曾因非法歧視而惹上官司,做出巨額賠償。這說明即便是專業的測評機構也會有考慮不周的情況。所以,美國企業在應用這些測評工具時必須非常慎重。
一百多年來,心理學家們研究了很多測評工具和方法。他們發現,不同的測評工具的效度是不一樣的(見圖3)。評價中心雖然操作起來比較復雜,但相對來說效度較高。此外,結構化面試、工作樣本和IQ測驗的效度也是比較高的。一般來說個性測驗的效度算是中等,因為個性測驗存在一個“偽裝好”的挑戰。而且個性測驗相對來說都是在線測評,成本低廉,所以能達到這樣的效度已經很不錯了。如果在美國你用占星術或者筆跡學進行篩選的話肯定是非法的。
剛剛說到MBTI的信度很低,在效度上,也有大量證據表明其MBTI不能預測員工未來的工作表現。此外,MBTI的結構效度上也存在問題(參見格蘭特一文)。根據MBTI,思考和情感屬于同一類別,是一個維度的兩極,但其實它們是相互獨立的兩類特質。三十多年的研究都表明,你可以既喜歡概念和數據,也喜歡人際交往和感受情緒。結構效度不良,也使MBTI的有效性大打折扣。
今天的市場上鮮有中國心理學家開發的人格/個性的測評工具,這類工具大多是從國外引進的。然而,國外的測評工具如果沒有經過本土化研究,而只是簡單地翻譯過來,信效度就會受到影響。比如MMPI經過很多年的研究才做到了本土化。16PF和EPQ在80年代就有了中文版,也曾有大量的研究制定出中國常模,但目前二者都遇到版權的問題。中國在90年代之前幾乎沒有版權的概念,進入WTO以后,這些中文版的測評工具都沒有獲得版權,因而嚴格意義上都是非法的。在沒有版權的情況下,沒有人會去研究、更新這些測評工具,因為這樣的投入沒有回報,所以現在中國沒有正宗的16PF。大家會發現正規的企業,尤其是知名跨國公司基本沒有人會用16PF。1999年,我在美國人事決策國際公司(PDI)做首席代表,當時我們把PDI專門用來篩選基層員工的誠信測評工具EI引入中國,結果發現它并沒有效度,只得放棄在中國的推廣。如果一個測評工具未曾進行效度研究,那么它就不應推廣。中歐的一位知名教授現在在推廣PDP,但Page博士在美國并未見到過這個工具,我也沒有看到它在中國應用的效度證據。在我看來,這些測評工具都是可疑的。因為這些測評工具的開發者可以在學術界(比如在工業組織心理學年會上)通過學術交流來打擂臺,但是實際上他們并沒有這樣做。外行人通常看不懂這些專業性很強的測試工具的技術參數,所以同行的評議和檢驗往往是比較有效的。我們可以看到,很多工具雖然在大力推廣,但是真正的效果是值得質疑的。
中國引進最多的測評工具都是用于職業發展的,例如當下流行的DISC、MBTI、九型人格以及其他一些測評工具。大家都知道,職業發展的測評都是為被評人本人服務的,測試的報告只給被評人自己看,而且現場就能得到分數,像MBTI如何算分數自己都是非常清楚的。由于問卷結果是給自己看的,所以這類問卷不需要應對“偽裝好”的問題,因此開發的技術等級是非常低的。一旦將這類測評工具用于選拔,情況就完全不同了,就要經受“偽裝好”的考驗。
我特意查了一下DISC的情況。美國出版商Inscape的網站上有很多效度報告。我查看了這些效度報告以后,發現有關DISC的效度研究報告沒有任何關于校標關聯效度(即,預測效度和同時效度)的研究。所以這樣的測驗不是用于選拔的,因為不用于選拔就不需要預測效度和同時效度。
▌效度研究范例——安全行為傾向測驗(API)的同時效度研究
我接下來說說怎樣證明一個測評工具是有效的。這里我給大家分享一個安全行為測評(API)的案例。
能源化工行業很容易發生事故,比如中石化的青島爆炸事件。有些人的個性桀驁不馴,可能會很有創意,比如喬布斯,但如果讓這類人去安裝操作器械裝置的話,他可能很不耐煩。這類人在某些時刻(緊張壓力狀態下)就容易闖禍,這就和個性或者人格有關。API就是專門用來預測一個人是否適合安排在安全生產崗位上的。我們的一個客戶在安全生產方面臨嚴峻的挑戰,因此他找到我們,希望我們幫助他鑒別哪些人在安全生產上是不牢靠的。我們采用的測評工具就是API,并且采用同時效度作為證據。我們讓100個一線操作工人做這個測驗,得到一組分數;同時讓這100人的主管給這些工人過去一年的安全行為表現打分。對這兩組分數進行相關統計分析,得出的相關系數就叫同時效度。我們發現有兩個API指標的得分高低和工人的安全行為表現分數有顯著相關。
效度系數是一個非常抽象的概念。我們先來看看API得分高和低的兩組在安全行為表現上的分數會不會一樣。我們發現在安全知識、安全行為、分享安全經驗和報告不安全行為這幾項上,API得分高的人的分數也比較高。API得分低的人在這些指標上得分也比較低(見圖4)。
我們再來看看參考錄取分數線。圖5橫線是安全行為表現的達標線,豎線是參考錄用分數線。我們把這100人按照兩個得分放在這四個象限里,大家可以看到91.6%的人是符合要求的,還有不到百分之十的人是應該被篩除的。那也說明這個測驗本身能幫助企業做出正確的決策。
▌當前人格/個性測評工具在中國應用中的挑戰
在中國,人格/個性測評的應用狀況不是很理想。首要原因是這一塊缺乏公認的規范和相應的法律保障。法律的缺位導致了測評工具的泛濫。據我了解,迄今為止,中國沒有一家公司因為濫用心理測驗而受到法律訴訟。當然我相信以后中國的測評會走上規范化的道路。
第二個問題是心理測量工作者的數量和質量都有待提高。現在違反測量原則和方法、測驗使用不當或濫用的現象普遍存在。我舉個例子。大家都知道IQ測驗是要限時的,但是人格/個性類的測試時間是不受限的。我碰到一個客戶向我反映,他們的供應商把個性和IQ測驗放到一張問卷上,被評人可以給兩部分題目自由分配時間,這就違背了測試的規則。我不知道在座有多少人聽過菲爾人格測驗,我自己是看到有一個國內的公司在招聘時竟然用這個測驗。但其實網上流傳的菲爾人格測驗是用于娛樂的。這個所謂的人格測驗沒有經過正規的信效度研究。美國加州消費者保護局下屬的心理學委員會(the California Board of Psychology)曾于2002年指出,菲爾的電視節目是娛樂性的,不是心理學節目,無須心理學執業牌照。所以這種測驗在招聘上根本不可能是合法的。
第三個原因是實證效度的研究很難在中國企業中開展,所以中國少有效度研究的證據。由于中國經濟的市場化才20多年,很多企業、尤其是政府機構、國有企業等單位在員工業績考評數據的收集上還存在較大的難度,缺乏有效的校標數據。隨著中國經濟市場化程度的提高,應該會有越來越多的企業重視這個問題,因為它會影響到企業的經濟效益。沒有效度研究,就不能給企業帶來效益回報。效度證據需要專業的人員,同時還需要大量的資金投入,如果沒有法律規范的話很多企業會沒有動力去做這個。
第四個原因是國外人格/個性測驗的引進缺乏扎實的本土化研究。剛剛Page博士也提到的translation和back translation的問題。如果這方面做不好,中國的被評人就讀不懂題目,或者他們理解的意思與題目的原意完全不同。所以,引進國外測評工具時需要大量的本土化研究,包括翻譯測驗題目時符合中國人的文化習慣、信度檢驗和持續修訂(要求在版權上要有歸屬,盜版的測驗是沒有人去投資做這樣的研究的)等一系列工作。
總的來說,人格/個性類的測試在中國依舊面臨著很大的挑戰。隨著市場化的深入,越來越多企業需要高質量、有價值的測評工具。有效的測評工具確實能給企業帶來效益,這應該也會推動測評工具的發展。謝謝大家。
來源:希典咨詢 梁開廣