闡述統計學在游戲設計領域的應用

佚名

()本文主要摘選了一些游戲設計者需掌握的統計學話題。特別對于系統設計師、機械設計師、平衡設計師等設計領域的設計師來說，統計學著實有用且很重要。

雖然統計學是一門基于數學的學科，但是它實在很枯燥！嚴格地說——如果你曾經不得不大量地研究雙邊置信區間、學生T檢驗以及卡方分布測試，有時你會覺得很難消化這些知識點。

一般來說，我是喜歡物理學和力學的，因為很多時候只需簡單地分析一個事例，你就能核實現狀。當你計算蘋果從樹上落下的速度及方向時，如果你的結果是蘋果應以每小時1224英里垂直向上拋出，也就是實際上你已經在頭腦中核實過結果了。

統計學的優勢在于易理解且具合理性；而劣勢在于它的奇特性。無論如何，這篇文章的話題不會讓你覺得枯燥。因為大部分的話題都是有形的、屬于重要的數據資料，你應有精力去慢慢摸索。

statistics(from wired.com)

統計學：黑暗的科學

統計學是所有學科領域中最易被邪惡勢力濫用的科學。

統計學可以同邪惡行徑相比較是因為在使用不當時，這門學科的分支就會被推斷出各種無意義或者不真實的裙帶關系(參見本文末尾的實例)。如果政治家或其它非專業人士掌控了統計學，那么他們就可以操縱一些重要決定。一般來說，基于錯誤總結的壞決策從來不受好評。

也就是說，使用得當時，統計學無疑非常有用且有益。而對于強權勢力者來說，他們會將統計學應用于一些非法途徑，甚至是一些純粹無用的渠道。

統計學——所謂的爭議

我已準備好作一個緊湊的總結，然而我注意到維基百科已經對統計學作了定義，而且語言幾近詩歌體系。如下：

統計學是應用數學的一個分支，主要通過收集數據進行分析、解釋及呈現。它被廣泛應用于各個學科領域，從物理學到社會科學到人類科學；甚至用于工商業及政府的情報決策上。(Courtesy Wikipedia.org)

這真的是一段很感人的文章。特別是最后那句“用于情報決策上”。

當然，作者忘記添上“在游戲設計領域”，但是我們原諒他對這一蓬勃發展的新興行業的無知。

以下為我自己撰寫：

統計學是應用數學的一個分支，它涉及收集及分析數據，以此確定過去的發展趨勢、預測未來的發展結果，獲得更多我們需了解的事物。(Courtesy Tylerpedia)

如果將此修改為適用游戲設計領域，那可以如此陳述：

統計學為你那破損的機制及破碎的設計夢指引了一條光明大道。它為你有意義的設計決策提供了穩定且具有科學性的數據。

須知的事實

統計學同其它硬科學一樣深奧且復雜。如同第一部分的內容一樣，本文只涉及一些精選的話題，我自認為只要掌握這些就足夠了。

再次突擊測驗

很抱歉我要采取另一項測試了。別討厭出題目的人，討厭測試吧。

Q1a)假設有20名測試員剛剛完成新蝸牛賽跑游戲《S-car GO!》中的一個關卡。你得知完成一圈的時間最少為1分24秒，最多為2分32秒。你期望的平均時間為2分鐘左右。請問這個測試會成功嗎？

Q1b)在同一關卡中你收集了過多的數據，在分析后得出這樣的結果：平均值=2分5秒；標準差=45秒。請問你會滿意這個答案嗎？

Q2)你設計了一款休閑游戲，不久就要發行。在最后的QA階段，你分布了一個測試版本，然后收集了所有的數據作為試驗對象。你記錄了1000多位玩家的分數，還有100多位特殊的玩家的分數(有些玩家允許重復玩游戲)。運算這些數據可知平均分為52000pts，標準差為500pts。請問這游戲可以發行了嗎？

Q3)你設計了一款RPG游戲，然后收集數據分析新的玩家從關卡1到關卡5的游戲進程會有多快。收集的數據如下所示：4.6小時、3.9小時、5.6小時、0.2小時、5.5小時、4.4小時、4.2小時、5.3小時。請問你可以計算出平均值和標準差嗎？

總體和樣本

統計學的基礎為分析數據。在分析數據的時候，你需要了解兩個概念：

1.總體：

總體是指某一領域中所有需要測量的對象。總體是抽象的，只在你需要測量時候才會具體化。比如，你想了解人們對某一特定問題的看法。那你就可以選擇地球上所有的人，或者愛荷華州所有的人或者只是你街道附近所有的人作為一個總體。

2.樣本：

樣本實際上就是指抽取總體中部分用于測量的對象。原因很明顯，因為我們很難收集到所有總體的數據。相對來說，你可以收集部分總體的數據。這些就是你的樣本了。

正確性及樣本容量

統計學結果的可靠性通常由樣本容量的大小決定。

我們完美的想法是希望樣本容量就是我們的總體——也就是說，你想整個收集全部涉及到的數據！因為樣本越少，你就需要估計可能的趨勢(這是一種數學性的推斷)。而且，數據點越多越好；你最好能建立一個大型的總體而不是小型的。

例如，相對于調查10000個初中生對《Fruit Roll-Ups》的感想，試想下調查人員能否詢問到每一個學生。100萬個的數目過于龐大，做不到的話，10萬個也不錯。仍然做不到，好吧，10000個剛剛好。

由于時間和費用的關系，通常呈現出的研究結果都是基于樣本所做的調查。

1.統計學的常識性規則：

你無法通過一個數據點來預測整個趨勢。如果你知道我喜歡巧克力冰淇淋，你不能總結所有的Sigmans都喜歡巧克力冰淇淋。如果現在你詢問我家庭中的許多成員，然后你可能會得出關于他們的想法這類比較合理的結論，或者你至少知道是否能總結出一個合理的推斷。

廣泛的分布圖(重點！)

由于種種原因，只有《The Big Guy》可以解釋生活中的許多事情傾向于同一模式發展或者分布。

最普遍的分布也有一個合理的名稱——“正態分布”。是的，無法匹配這一分布圖的都為非正態，所以有點怪異(需要適當避免)。

正態分布也稱“高斯分布”，主要因為“正態”一詞聽起來不夠科學。

正態分布也稱為“鐘形曲線”(又稱貝爾曲線)，因為其曲線呈鐘形。

bell curve(from gamasutra)

鐘形曲線的突出特點是大多數的總體均分布在平均值周圍，只有個別數據散落在一些極限位置(主要指那些偏高或偏低的數據)。中間成群的數據構成了鐘的外形；而那些偏高數據或偏低數據分布在鐘的邊緣。

我們周圍有上百萬的不同事例呈現出正態分布的景象。如果你測量了你所生活的城市中所有人的身高，結果可能呈現正態分布。這表明，只有少數個體屬于非正常的矮，少數個體屬于姚明那樣的身高，而大多數人會比平均身高多幾英寸或者矮幾英寸。

鐘形曲線同樣極典型地適用于調查人們的技能水平。以運動為例——極少部分人在這一領域為專業人士，大多數的人都還過得去，只有少部分的人實在不擅長，所以沒有被選為隊員(比如我)。

其它分布圖

盡管正態分布圖很完美，但它并非我們周圍唯一的一種分布圖。只是它比較普遍地存在。

比如有些其它的分布圖直接與賭博及游戲設計有關，只要看下扔骰子的概率分布圖，這種情況下出現了如下的d6情形及2d6情形：

D6 distribution(from gamasutra)

2d6 distribution(from gamasutra)

現在我想說的是第一個分布圖看起來一點也不像鐘形曲線，而第二幅圖開始呈現出了鐘的形狀。

平均值

這一小塊內容可以說是這篇冗長的文章中的一個小插曲。這塊自我指涉的小內容的存在只有一個目的：提醒你什么是“平均值”。這塊自我指涉且迂腐的小內容將被動地提醒你平均值是指一整套的數學平均數據。

方差和標準偏差

我們必須理解什么是方差和標準偏差，并且它們也具有許多有形的價值。除了能夠幫助我們做出有價值的數據總結外，這兩個術語還能夠幫助我們更明智地陳述分布問題。比起說“中間聚集了大量的數據點”，我們可以換個說法，即“68.2%的樣本是一個平均值的標準偏差”。

sigman(from gamasutra)

方差和標準偏差是相互聯系的，它們都能夠測量一個元素，即分散數據。直觀地說，較高的方差和標準偏差也就意味著你的數據分散于四處。當我在投擲飛鏢時，我便會獲得一個較高的方差。

我們可以通過任何數據集去估算方差和標準偏差。我本來應該在此列出一個方程式的，但是這似乎將違背“聽起來不像是一本教科書”的規則。所以我這里不引用公式，而是采用以下描述：

標準偏差：樣本或人口統計的平均數值偏離平均值的程度。由希臘之母σ(sigma)表示。

舉個例子來說吧，你挑選了100個人并測試他們完成你的新游戲第一個關卡分別用了多長時間。讓我們假設所有數據的平均值是2分鐘30秒而標準偏差則是15秒。這一標準偏差表明游戲過程中出現了集聚的情況。也就是平均來看，每個游戲過程是維持在平均值2.5分鐘中的±0.25分鐘內。從中看來這一數值是非常一致的。

這意味著什么以及為何你如此在乎這一數值？答案很簡單。假設你不是獲得上述結果，而是如下結果：

平均值=2.5分鐘(如上)

σ=90秒=1.5分鐘

所以我們現在擁有相同的平均值以及不同的標準偏差。這套數值表明玩家所用的游戲時間差別較大。90秒鐘的游戲時間背離了平均游戲時間。而因為游戲時間是2.5分鐘，所以這種偏差過大了！基于各種設計目的，出現這種較大的差值都不是設計師想看到的結果。

而如果我們所說的游戲時間是15分鐘而標準偏差是90秒(1.5分鐘)的話差別變更大了。

通過一個小小的標準偏差便能夠衡量一致性。標準偏差比率除以平均值便能夠獲得相關數值。就像在第一個例子中，15秒/150秒=10%，而在第二個例子中，90秒/150秒=60%。很明顯，60%的標準偏差真是過大了！

但是并不是說較大的標準偏差“總是”糟糕的。有時候設計師在進行測量時反而希望看到較大的標準偏差。不過大多數情況下還是糟糕的，因為這就意味著數值的差異性和變化性較大。

更重要的是，標準偏差的計算將告訴你更多有關游戲/機制/關卡等內容。以下便是通過測量標準偏差能夠獲得的有用的數據：

1.玩家玩每個關卡的游戲時間

2.玩家玩整款游戲的游戲時間

3.玩家打敗一個經典的敵人需要經歷幾次戰斗

4.玩家收集到的貨幣數量(游戲中有一個意大利水管工)

5.玩家收集到的吊環數量(游戲中有一個快速奔跑的藍色刺猬)

6.在教程期間時間控制器出現在屏幕上

誤差

誤差與統計結論具有密切的關系。就像在每一次的蓋洛普民意測驗(游戲邦注：美國輿論研究所進行的調查項目之一)中也總是會出現誤差，如±2.0%的誤差。因為民意調查總是會使用樣本去估算人口數量，所以不可能達到100%精準。零誤差便意味著結果極其精確。當你所說的人口數量大于你所采取的樣本數量，你便需要考慮到誤差的可能性。

如果你是利用全部人口作為相關數據來源，你便不需要考慮到誤差——因為你已經擁有了所有的數據！就像我問街上的任何一個人是喜歡象棋還是圍棋，我便不需要考慮誤差，因為這些人便是我所報告的全部數據來源。但是如果我想基于這些來自街上行人的數據而對鎮上的每個人的答案做出總結，我便需要估算誤差值了。

你的樣本數量越大，最終出現的誤差值便會越小。Mo data is bettuh(越多數據越好)。

置信區間

你可以使用推論統計為未來數據做出總結。一個非常有效的方法便是估算置信區間。理論上來看，置信區間與標準偏差密切相關，即通過一種數學模式去表示我們多么確定某一特定數據是位于一個特定范圍內。

置信區間：即通過一種數學方法傳達“我們帶著A%的置信保證B%的數據將處于C和D價值區間。”

雖然這個定義很繞口，但是我們必須知道，只要具有一定的自信，我們便能夠造就任何價值。讓我以之前愉快但卻缺乏滿足感的工作為例：

我過去是從事應力分析和飛機零部件的設計工作。如果你知道，或者說你必須知道，飛機，特別是商業飛機的建造采用的是現代交通工具中最嚴格的一種形式。人們總是會擔心機翼從機身上脫落下來。

作為飛機建造工程師，我們所采取的一種方法便是基于材料優勢屬性設置一個高置信區間。關于飛機設計的傳統置信區間便是“A基值許可”，即我們必須95%地確信裝運任何一種特殊材料都有99%的價值落在一個特定的價值區間內。然后我們將根據這一價值與可能發生的最糟糕的空氣條件進行設計，并最終確立一個最佳安全元素。

當你真正想了解某種數據值時，置信區間便是一種非常有幫助的方法。幸運的是在游戲中我們并不會扯到生死，但是如果你想要平衡一款主機游戲，你便需要在設計過程中融入更多情感和直覺。計算置信區間能夠幫助你更清楚地掌握玩家是如何玩你的游戲，并更好地判斷游戲設置是否可行。

不管你何時想要計算置信區間，備用統計規則都是有效的：越多數據越好。你的樣本中擁有越多數據點，你的置信區間也就越棒！

你不可能做到100%的肯定

這便引出了另一個統計規則：

并不存在100%之說：你永遠不可能創造一個100%的置信區間。你不可能保證通過推論統計便能夠預測一個數據點具有一個特定的價值。

當玩家在《魔獸世界》中挑戰任務時，唯一可以確定的只有死亡，稅金以及不可能找到最后的Yeti Hide。所以玩家只需要接受這些事實并勇往直前便可。

濫用

我在之前提過，統計是一種邪惡的技能。為了更好地解釋原因，我寫下了這篇彈頭式愛情詩：

十四行詩1325：美好的統計，讓我細數下我濫用你的每種方式：

1.誤解

2.未明確置信區間

3.只因為不喜歡而丟棄了有效的結論

4.基于有缺陷的數據而做出總結

5.體育實況轉播員的失誤——混淆了概率和統計錯誤

6.基于一些不相干元素做出總結

誤解

人們一直在誤解統計報表。我知道，這一點讓人難以置信。

未明確置信區間或誤差

置信區間和誤差是信息中非常重要的組成部分。在過去30天內有43%的PC擁有者購買了一款可下載的游戲(誤差為40%)與同樣的陳述但存在2%的誤差具有巨大的差別。而如果遺漏了誤差，便只會出現最糟糕的情況。我們需要始終牢記，小樣本=高誤差。

只因為偏見而丟棄了有效的結論

操作得當的話，統計數據是不會撒謊的。但是人們卻一直在欺騙自己。我們經常在政治領域看到這類情況的出現，人們總是因為結論不符合自己預期的要求而忽視統計數據。在焦點小組中亦是如此。當然了，政治領域中也常常出現濫用統計結論的現象。

基于有缺陷的數據而做出總結

這種情況真是屢見不鮮，特別是在市場調查領域。你的統計結果總是會受到你所獲得的數據的影響。如果你的數據存在缺陷，那么你所獲得的結果便不會有多少價值。得到有缺陷的數據的原因多種多樣，包括失誤和嚴重的操作問題等。提出含沙射影式問題便是引出能夠支持各種結論(就像你所希望的那樣)的缺陷數據的一種簡單方法。“你比較喜歡產品X，還是糟糕的產品Y？”將快速引出反彈式回答，如“95%的費者會選擇產品X！”

體育實況轉播員的失誤

體育實況轉播員可以說是當今時代的巫醫。他們會收集各種統計，概率以及情感，然后將其混合在一起而創造出一些糟糕的結果。如果你想看一些圍繞著沒有根據的結論的統計，你只要去觀看一款足球比賽便可。

例如一個廣播員會說“A隊在最后5局游戲中并未阻止B隊的進攻。”這種模糊的結論是關于A隊不大可能阻止B隊的進攻，而不是他們在最后5局游戲中成功阻攔了B隊。但是你也可以反過來說——也許他們將會這么做，因為他們之前從未阻擋過任何對手。

但是事實卻在于根本不存在足夠的信息能夠支持任何一種說法。也許這更多地取決于一種概率。阻擋進攻的機會是否就取決于一方在之前的游戲中是否這么做過？它們也許是兩種相互獨立事件，除非彼此間存在著互相影響的因素。

但是這并不是說所有體育運動的結論都存在著缺陷。就像對于棒球來說統計數據便非常重要。有時候統計分析也將影響著球的投射線或者擊球點等元素。

最終還是取決于數據：當你擁有足夠的數據時，你便能夠獲得更好的統計結論。棒球便能夠提供各種數據：每一賽季大約會進行2百多場比賽。但是足球比賽的場次卻相對地少了很多。所以我們最終所獲得的誤差也會較大。但是我并不會說統計對于足球來說一點用處都沒有，只是我們很難去挖掘一些與背景相關的有用數據。

基于一些不相干元素做出總結

人們始終都在誤解統計報表。比起使用對照關系，我們總是更容易推斷出一些并不存在的深層次的關系。我最喜歡的一個例子便是著名的飛行面條怪物信仰(游戲邦注：是諷刺性的虛構宗教)的《Open Letter to the Kansas School Board》中的“海盜vs.全球變暖”圖表：

www.venganza.org/about/open-letter/

我們是否能夠開始解答問題了？

問題1的答案—-關卡時間

這一問題的答案很簡單：你未能獲得足夠的信息去估算平均值。因為在1：24與2：32范圍中波動的價值并不意味著它們的平均值就是2分鐘。(單看這兩個數值的平均值是1.97分鐘，但是我們卻不能忽視其它18個結果！)你必須掌握了所有的20個結果才能估算平均值，除此之外你還需要估算標準偏差值。

問題2的答案—-后續關卡時間

這時候你可能不會感到滿足，因為標準偏差值過高了，超過平均值的40%。如此看來你的關卡中存在著過多變量。同時這里也存在著一些可利用的潛在元素，并且技能型玩家能夠發揮其優勢而造福自己。或者，你也可以嚴厲懲罰那些缺少技能的玩家。而作為游戲設計師，你最終需要做的便是判斷這些結果(居于高度變量)是否符合預期要求。

問題2的答案—-標準偏差值

統計只是你所采用的一種方法，你同時還需要懂得如何進行游戲設計。如此，過于接近的計數分組使得我們總是能夠獲得一個較低的標準偏差值(500/52000=1%)，這就意味著你所獲得的分數幾乎沒有任何差別，也就是說在最終游戲結果中玩家的不同技能并不會起到任何影響作用。而當玩家發現自己技能的提高并不會影響游戲分數的發展時，便會選擇退出游戲。

所以在這種情況下你更希望看到較高的標準偏差，如此游戲分數才能隨著技能的提高而提高。

問題3的答案—-游戲時間

可以說這是一個很難獲取的數值，不過它卻說明了數據收集中的一個要點：你需要警惕那些看起來是錯誤的數據。就像0.2小時看起來就有問題。也許這是排印錯誤，或者是設備故障所造成的，誰知道呢。但是不管怎樣在進行各種計算之前你都需要堅定不移地說服自己0.2小時是一個有效數據，或者你也可以選擇將其丟棄而基于剩下的數據點進行估算。

其它有趣的內容

為了控制本文篇幅，我不得不略過許多有趣的主題。我只要在此強調理解統計不僅能夠幫助你更好地進行游戲設計，同時也能夠幫助你做出消費者決策，投票決策或者財政決策等。我敢下23.4%的賭注保證我所說的內容中至少有40%的內容是正確的。

對于設計師而言，統計能夠幫助他們獲取來自有記錄的游戲過程(樣本)的相關數據，并幫助他們為更大的未記錄的游戲過程(人口統計)做出總結。

在實踐中學習

例如在我剛完成的游戲中，我便是通過記錄游戲過程的相關數據，并圍繞著源自這些數據的平均值和標準偏差去設定游戲挑戰關卡。我們將中等難度等同于平均值，較容易的等同于平均值減去一定量的標準偏差，而較困難的等同于平均值加上一定量的標準偏差。如果我們能夠收集到盡可能多的數據，我們的統計便會越精準。

就像概率論一樣，當你的項目范圍變得越來越大時，統計也會變得越來越有幫助。很多時候你可以通過自己的方法進行摸索，而無需使用任何形式理論。但是隨著游戲變大，用戶群體的壯大以及預算的擴大，你便需要做好面對一個不平衡，且完全憑直覺的游戲設計中存在固有缺陷的準備。

你需要牢記的是，統計和概率都不可能為你進行游戲設計，它們最多只能起到輔助作用！

游戲邦注：原文發表于2007年1月24日，所涉事件和數據均以當時為準。(來源：游戲邦編選：免費論文下載中心）

上一篇:善用百度統計了解網站關鍵字健康情況

下一篇:對于統計學專業英語教學現狀與對策分析