【觀點】人格/個性測評工具在中國企業的應用和挑戰

▌好測驗的四個標準

大家在選擇人才測評工具的時候不是隨隨便便選的，而是一定要有過硬的理由。所以好的測評工具應達到四個標準。第一個是信度。第二個是效度。第三個是效用，即，我選擇的測評工具是不是有投資回報。在美國還存在一個問題是法律風險。美國有很多少數族群，尤其是黑人，使用這些測試有時會讓他們感覺被歧視。如果公司拿不出證據來證明所用的測試工具是合法的，就有可能被控非法歧視，引發很大的經濟賠償。所以在測試工具的使用上規避法律風險也是非常重要的。我回國前曾在AT&T工作過兩年，因此很了解這些情況。第四個是可行性。測評工具如果在操作上很復雜的話，會給實際運用帶來不便。為什么最近一段時間人格/個性測評工具非常流行呢，因為它相對來說比較好操作，在網上測試即可。而且在線的個性人格測評對所有員工都是適用的。但像人才評價中心一類的操作就比較復雜、成本也相對較高，所以使用的范圍就大大受到限制。

信度和效度的基本概念

按照國際標準（也就是美國標準），信度系數大于0.9的測評工具是優秀的測評工具。一般來說，業界通常將信度系數的低限設定為0.7，如果信度達不到這個低限，就意味著測評工具需要修改。美國勞工部專門有一個指南（見表1），幫助企業選擇測評工具。

表1：

信度系數	解釋準則
≥0.90	優秀
0.80-0.89	良好
0.70-0.79	合格
<0.70	適用性有限，需修改

在國內，大家對MBTI非常了解。但MBTI的信度恰恰是很成問題的。大家的資料上有篇文章叫做《告別MBTI》，是沃頓商學院格蘭特教授寫的。他前后兩次體驗了MBTI，但兩次的測試結果完全不一樣。第一次的測試結果是INTJ（內向-直覺-思考-判斷），但是過了幾個月再做測試就變成了ESFP（外傾-感覺-情感-知覺）。同樣一個人，短短幾個月之內性格就發生了這么大的變化，是不太可能的。這說明MBTI的重測信度是經不住嚴格檢驗的，學術界對這個局限性也有很多批評。所以在美國，類似的工具人們就不敢輕易使用，因為會有法律上的風險。MBTI的使用手冊開宗明義就講到該測驗是不能用于人員選拔的。

接下來說說效度的概念。我這里參照的是Page博士之前在明尼蘇達大學授課用的教材。效度分為幾個類型。

第一個是表面效度

測評工具要在表面上讓被評人覺得這是在測試所要的心理特性（如個性）。

第二個是內容效度

情景模擬測試的內容效度通常很高，因為情景模擬都是通過分析工作崗位職責和工作內容而提煉出來的。所以它測試的內容和實際的工作是接近的。

第三個是結構效度

它是指一個測量工具是否測量了它本應測量的內容。例如Page博士的WBI是基于大五人格模型開發的，我們對三個國家（美國、中國和泰國）的測試數據都做了探索性因素分析，來檢驗WBI的五維度結構效度。結果都驗證了WBI能明確檢測出人格的五個維度。

我想重點說說第四種類型的效度，也是實證的效度，它可以分為同時效度和預測效度。

測評工具對企業最大的幫助就在于它能預測員工未來的工作表現。選拔員工的時候，企業運用某個測評工具測得一個分數，過了三個月、六個月或者一年以后，把員工的工作表現和之前的測試結果做一個相關，這就叫預測效度設計。但是對于企業來說，預測效度設計是有風險的，因為在研究階段，企業必須將參加測試的候選人不經篩選地招進來，才能做業績跟蹤；而如果將不合適的員工招進來跟蹤數月，實際上已經給企業帶來了損失。所以，大多數企業并不愿意這么做，只有少數愿意支持嚴謹研究的企業才會愿意（例如上世紀50年代著名的AT&T評價中心效度研究）。

因此，要證明一個測評工具是否有效，也可以對企業現有的員工進行測評，看測評工具能否區分出好的員工和差的員工，這樣也能看出一個測評工具能否預測員工未來的工作表現。這就叫做同時效度設計，雖然它也同樣存在局限性。

除了表面效度沒有價值以外，其它四種效度都是有實際價值、并且可以在法庭上作為證據使用的（參考美國工業組織心理學會的正式文件）。從商業邏輯上來說，雇主采用選拔的程序、工具來挑選優秀的人才，并預期他們未來給企業帶來更好的業績，這是正當、合理的要求。

在美國，選用測評工具進行人員篩選會存在非法歧視的風險。企業在選擇錄用/不錄用某個人的時候，必須要證明篩選過程不存在非法歧視。此時，如果測評工具能提供效度證據，就可避免法律訴訟的風險；如果不能提供效度證據，或無法自證沒有歧視，就可能被判高額賠償。例如專門負責托福和GRE的美國教育考試服務中心（ETS）就曾因非法歧視而惹上官司，做出巨額賠償。這說明即便是專業的測評機構也會有考慮不周的情況。所以，美國企業在應用這些測評工具時必須非常慎重。

一百多年來，心理學家們研究了很多測評工具和方法。他們發現，不同的測評工具的效度是不一樣的（見圖3）。評價中心雖然操作起來比較復雜，但相對來說效度較高。此外，結構化面試、工作樣本和IQ測驗的效度也是比較高的。一般來說個性測驗的效度算是中等，因為個性測驗存在一個“偽裝好”的挑戰。而且個性測驗相對來說都是在線測評，成本低廉，所以能達到這樣的效度已經很不錯了。如果在美國你用占星術或者筆跡學進行篩選的話肯定是非法的。

剛剛說到MBTI的信度很低，在效度上，也有大量證據表明其MBTI不能預測員工未來的工作表現。此外，MBTI的結構效度上也存在問題（參見格蘭特一文）。根據MBTI，思考和情感屬于同一類別，是一個維度的兩極，但其實它們是相互獨立的兩類特質。三十多年的研究都表明，你可以既喜歡概念和數據，也喜歡人際交往和感受情緒。結構效度不良，也使MBTI的有效性大打折扣。

今天的市場上鮮有中國心理學家開發的人格/個性的測評工具，這類工具大多是從國外引進的。然而，國外的測評工具如果沒有經過本土化研究，而只是簡單地翻譯過來，信效度就會受到影響。比如MMPI經過很多年的研究才做到了本土化。16PF和EPQ在80年代就有了中文版，也曾有大量的研究制定出中國常模，但目前二者都遇到版權的問題。中國在90年代之前幾乎沒有版權的概念，進入WTO以后，這些中文版的測評工具都沒有獲得版權，因而嚴格意義上都是非法的。在沒有版權的情況下，沒有人會去研究、更新這些測評工具，因為這樣的投入沒有回報，所以現在中國沒有正宗的16PF。大家會發現正規的企業，尤其是知名跨國公司基本沒有人會用16PF。1999年，我在美國人事決策國際公司（PDI）做首席代表，當時我們把PDI專門用來篩選基層員工的誠信測評工具EI引入中國，結果發現它并沒有效度，只得放棄在中國的推廣。如果一個測評工具未曾進行效度研究，那么它就不應推廣。中歐的一位知名教授現在在推廣PDP，但Page博士在美國并未見到過這個工具，我也沒有看到它在中國應用的效度證據。在我看來，這些測評工具都是可疑的。因為這些測評工具的開發者可以在學術界（比如在工業組織心理學年會上）通過學術交流來打擂臺，但是實際上他們并沒有這樣做。外行人通常看不懂這些專業性很強的測試工具的技術參數，所以同行的評議和檢驗往往是比較有效的。我們可以看到，很多工具雖然在大力推廣，但是真正的效果是值得質疑的。

中國引進最多的測評工具都是用于職業發展的，例如當下流行的DISC、MBTI、九型人格以及其他一些測評工具。大家都知道，職業發展的測評都是為被評人本人服務的，測試的報告只給被評人自己看，而且現場就能得到分數，像MBTI如何算分數自己都是非常清楚的。由于問卷結果是給自己看的，所以這類問卷不需要應對“偽裝好”的問題，因此開發的技術等級是非常低的。一旦將這類測評工具用于選拔，情況就完全不同了，就要經受“偽裝好”的考驗。

我特意查了一下DISC的情況。美國出版商Inscape的網站上有很多效度報告。我查看了這些效度報告以后，發現有關DISC的效度研究報告沒有任何關于校標關聯效度（即，預測效度和同時效度）的研究。所以這樣的測驗不是用于選拔的，因為不用于選拔就不需要預測效度和同時效度。

▌效度研究范例——安全行為傾向測驗（API）的同時效度研究

我接下來說說怎樣證明一個測評工具是有效的。這里我給大家分享一個安全行為測評(API)的案例。

能源化工行業很容易發生事故，比如中石化的青島爆炸事件。有些人的個性桀驁不馴，可能會很有創意，比如喬布斯，但如果讓這類人去安裝操作器械裝置的話，他可能很不耐煩。這類人在某些時刻（緊張壓力狀態下）就容易闖禍，這就和個性或者人格有關。API就是專門用來預測一個人是否適合安排在安全生產崗位上的。我們的一個客戶在安全生產方面臨嚴峻的挑戰，因此他找到我們，希望我們幫助他鑒別哪些人在安全生產上是不牢靠的。我們采用的測評工具就是API，并且采用同時效度作為證據。我們讓100個一線操作工人做這個測驗，得到一組分數；同時讓這100人的主管給這些工人過去一年的安全行為表現打分。對這兩組分數進行相關統計分析，得出的相關系數就叫同時效度。我們發現有兩個API指標的得分高低和工人的安全行為表現分數有顯著相關。

效度系數是一個非常抽象的概念。我們先來看看API得分高和低的兩組在安全行為表現上的分數會不會一樣。我們發現在安全知識、安全行為、分享安全經驗和報告不安全行為這幾項上，API得分高的人的分數也比較高。API得分低的人在這些指標上得分也比較低（見圖4）。

我們再來看看參考錄取分數線。圖5橫線是安全行為表現的達標線，豎線是參考錄用分數線。我們把這100人按照兩個得分放在這四個象限里，大家可以看到91.6%的人是符合要求的，還有不到百分之十的人是應該被篩除的。那也說明這個測驗本身能幫助企業做出正確的決策。

▌當前人格/個性測評工具在中國應用中的挑戰

在中國，人格/個性測評的應用狀況不是很理想。首要原因是這一塊缺乏公認的規范和相應的法律保障。法律的缺位導致了測評工具的泛濫。據我了解，迄今為止，中國沒有一家公司因為濫用心理測驗而受到法律訴訟。當然我相信以后中國的測評會走上規范化的道路。

第二個問題是心理測量工作者的數量和質量都有待提高。現在違反測量原則和方法、測驗使用不當或濫用的現象普遍存在。我舉個例子。大家都知道IQ測驗是要限時的，但是人格/個性類的測試時間是不受限的。我碰到一個客戶向我反映，他們的供應商把個性和IQ測驗放到一張問卷上，被評人可以給兩部分題目自由分配時間，這就違背了測試的規則。我不知道在座有多少人聽過菲爾人格測驗，我自己是看到有一個國內的公司在招聘時竟然用這個測驗。但其實網上流傳的菲爾人格測驗是用于娛樂的。這個所謂的人格測驗沒有經過正規的信效度研究。美國加州消費者保護局下屬的心理學委員會（the California Board of Psychology）曾于2002年指出，菲爾的電視節目是娛樂性的，不是心理學節目，無須心理學執業牌照。所以這種測驗在招聘上根本不可能是合法的。

第三個原因是實證效度的研究很難在中國企業中開展，所以中國少有效度研究的證據。由于中國經濟的市場化才20多年，很多企業、尤其是政府機構、國有企業等單位在員工業績考評數據的收集上還存在較大的難度，缺乏有效的校標數據。隨著中國經濟市場化程度的提高，應該會有越來越多的企業重視這個問題，因為它會影響到企業的經濟效益。沒有效度研究，就不能給企業帶來效益回報。效度證據需要專業的人員，同時還需要大量的資金投入，如果沒有法律規范的話很多企業會沒有動力去做這個。

第四個原因是國外人格/個性測驗的引進缺乏扎實的本土化研究。剛剛Page博士也提到的translation和back translation的問題。如果這方面做不好，中國的被評人就讀不懂題目，或者他們理解的意思與題目的原意完全不同。所以，引進國外測評工具時需要大量的本土化研究，包括翻譯測驗題目時符合中國人的文化習慣、信度檢驗和持續修訂（要求在版權上要有歸屬，盜版的測驗是沒有人去投資做這樣的研究的）等一系列工作。

總的來說，人格/個性類的測試在中國依舊面臨著很大的挑戰。隨著市場化的深入，越來越多企業需要高質量、有價值的測評工具。有效的測評工具確實能給企業帶來效益，這應該也會推動測評工具的發展。謝謝大家。

來源：希典咨詢梁開廣

操人网站_欧美日韩在线网站_日本免费三级网站_涩爱av蜜臀夜夜嗨av_精品免费成人_国产99视频精品免费专区

【觀點】人格/個性測評工具在中國企業的應用和挑戰