2009年3月9日 星期一

代表性偏誤(1)-Representativeness

代表性偏誤的意思是,人們把”相似性”和”機率”混為一談。舉例來說,我某位朋友f君的嗜好是日本動漫和模型,那麼你就會高估f君是宅男的可能性,而低估他是花花公子的可能。因為對f君的描述符合我們對阿宅的刻板印象。再舉個例子:

Steve內向害羞,對社交沒興趣,但熱於助人。他愛乾淨,對於細節非常要求,他的生活作風一絲不苟。
請問Steve最有可能的職業是: 農夫, 科學家, 工程師, 圖書館員, 律師?

上述沒有提供可以評估機率的資訊,但如果Steve的描述符合你對科學家的刻板印象,則你會認為Steve是科學家的可能性高些。用刻板印象進行判斷省時省力,是一種思考的捷徑。問題在於”相似性”不等於機率,而且每個人的刻板印象都不同,在評估上更會出錯。財務決策尤其如此。

** 不會計算機率
有一個不好的消息是,除了受過專業訓練的人,大部分人不擅長評估機率。看看這個問題:

在台灣人口中愛滋病患的比率是0.01%。愛滋篩檢有1%的可能性出錯,即結果為陽性(有染愛滋)但實際上沒有染病的機率是1%。反之結果為陰性,但是實際有病的卻沒檢驗出來的可能性也是1%。假設你身邊的友人生性風流,去做檢驗,結果是陽性,請問他實際染病的機率是多少?

大部分人的答案是99%,因為檢驗結果正確的機率為99%。
真正答案是1%。人口中只有0.01%有愛滋,有99.99%的人沒有。所以是:99.99%*1%+ 0.01%*99% =1% 你答對了嗎? 還是被”生性風流”所影響?

** 對樣本大小的遲鈍
假設台灣男生平均身高為165cm。那麼現在隨機在馬路上找一些男性,請問他們平均身高為何? 大部分人直接回答165cm,而不管這些男性是10人, 100人,還是1000人。樣本越大,平均值越接近165,樣本越小,越容易偏離165。
再來一個問題:
某個小鎮上有兩家醫院,一大一小。大醫院每天出生45名嬰兒,小醫院每天15名。如你所知的,生男生女的機率為50%。然而醫院裡每天出生的女生比例不一定剛好就是50%,有時多些,有時少些。
醫院每天記錄出生的男女比例,如果有哪天女生超過60%,他們會做特別記號。經過一年,請問哪家醫院的”特別記號”天數較多?
大醫院?
小醫院?
一樣多?

大部分人的答案是一樣多(包括我)。因為生男生女機會一樣,這符合我們對社會人口男女比的印象。但答案應該是小醫院,因為小醫院樣本少,比較容易出現偏離平均的行為。(大樣本的行為會符合理論機率,這是大數法則)。
對樣本大小的遲鈍會使我們錯誤評估交易策略的有效性。
例如農曆年效應: 農曆年過後台股通常會大漲,這個法則從1980到2009年只錯過5次,所以正確率為25/30=83.4%。但是三十年其實只有30個樣本,不具備統計意義。
在程式交易做策略的歷史回測時,樣本大小的問題便凸顯出來。所以歷史資料時間一定要夠長,但時間長不表示樣本夠大。真正的樣本是進場出場的訊號次數,如果回測十年只有進場10次,同樣不具統計意義。這時的辦法是放寬策略標準以增加進場次數。

2 則留言:

  1. 我想請問一下,如果愛滋病檢驗正確率是100%
    那麼那個人的實際染病機率是多少呢?

    回覆刪除
  2. 愛滋病這個機率只跟檢驗正確率有關, 不應該和愛滋人口比例有關, 這兩件事彼此是獨立的

    回覆刪除