hashcash 算法：從你最熟悉的「驗證碼」來解釋區塊鏈的意義

由 熱鏈中的人 於 7 月 3, 2018

寫在前面

比特幣並不是一種新技術。

但比特幣絕對是一款創新的產品。在中本聰提出比特幣的構想之前，有很多相關的密碼學技術已經完成了不少的積累。中本聰的厲害之處在於，他把這幾種不同的技術結合起來，針對 P2P 電子現金系統的需求創造出了一款新的產品。從這個意義上來說，中本聰是一個天才的設計師。他是區塊鏈行業裏第一個、也是最出名的產品經理。

比特幣借鑑了很多現有技術。其中，POW （工作量證明）代表的共識機制，借鑑的是 hashcash 算法。hashcash 是一種很有趣的設計，從 hashcash 本身的設計結構來看，我們還可以瞥見比特幣很多的思想和理念。在這篇文章裏，橙皮書會先稍微介紹下 hashcash 的原理，然後從技術的角度來討論下 hashcash 代表了比特幣之於傳統互聯網的意義。

從驗證碼開始談起

在解釋 hashcash 是什麼東西之前，我們先來聊點羣衆們比較熟悉的東西，一個你每天上網都會碰到的、有時還挺招人煩的——驗證碼。

在我們進行一些安全性比較高的操作時，比如賬號登陸、移動支付、購買車票，系統會通過手機短信等驗證方式，確認當前操作者的真實身份。

而在另一些安全性不那麼高的操作時，比如在貼吧裏發個帖子、查詢某個數據，有時候也會出現一個驗證碼。這個驗證碼通常是一個模糊的圖片，讓你識別圖片裏的字母或者漢字，也有技術複雜一點的，可以通過鼠標橫滑、鼠標單擊的方式來驗證。

這種驗證碼最主要的目的，是判定你是人還是機器。

雖然發帖、查詢這些操作本身不具備高安全性要求，但是系統不希望這些操作被不懷好意的人利用，通過大量機器代理賬號進行批量操作，發動 DDoS 攻擊，或者爬蟲等等。

通過驗證碼，你把每次操作的成本都往上增加了 1%，這對單個用戶來說雖然有點不方便，但總體上還是可以忍受的，但對機器來說，想要進行批量操作，每次識別驗證碼都要浪費一些時間，這樣每次操作疊加起來，想在短時間內批量完成就不可能了。

但讀到這裏，你可能會跟我有同一種想法：

有人會利用機器批量幹壞事，但那是他們的問題，爲什麼我作爲一個遵守規則的用戶要爲此支付額外的成本？

爲什麼人們需要因爲機器的原因承擔驗證碼的操作成本呢？即使這個操作成本對用戶體驗的影響很小，但本質上，這還是一個系統設計的問題。

再換個方式想，如果直接讓機器像人一樣，在每次操作前都進行驗證碼識別，判斷它自己是合法的機器還是非法的機器，這樣一來，機器產生的問題不就由機器自己解決了嗎？人們完全可以省去驗證碼的煩惱。

hashcash 的設計原理，簡單點說就是這樣乾的

爲了判斷進行操作的機器究竟是合法的還是非法的，最直接的做法，就是讓機器自己證明自己的身份。

機器要怎麼證明自己呢？

很簡單，通過付出一定的成本，來表示自己的可信度。

我們可以認爲，如果一個機器願意付出多少級別的成本，那麼它就是真心想進行多少級別的操作。不懷好意的攻擊者則會因爲機器進行這項操作的成本與收益不合算，從而放棄利用機器進行批量操作的意圖。

這個想法應該是可行的。但可行還不夠，這套驗明機器真身的系統，它的運作效率還應該儘可能更高一些。

所以，如果我們讓每臺機器在進行操作前都需要計算一個非常複雜的數學問題，通過算力作爲機器付出的成本，算出答案的就可以證明自己，那麼，系統檢驗這臺機器提交的答案是不是正確答案，這個驗證的過程應該儘可能高效。

有什麼數學問題是「計算的時候非常麻煩、但是驗證的時候非常簡單」的？

因數分解算一個。如果你要因數分解一個很大的數字，你可能要花上不少時間去找到它的一組因數。但如果你想知道這組因數是不是正確的答案，把這組數字相乘一下就行了。

hash （哈希）

hash （哈希）函數的作用，跟因數分解是差不多的。

hash 是一種映射函數，簡單來說，它把輸入轉換成一串特定 ID 輸出，這個過程是不可逆的。

比如，如果你用的是比特幣的 SHA-256 哈希函數，輸入「dog」這個單詞，就會輸出：

cd6357efdd966de8c0cb2f876cc89ec74ce35f0968e11743987084bd42fb8944
但如果你把這個單詞稍微改成「doge」, 那麼哈希的結果就會變成：

c4e793c81ee40370d827d0cbe748d246cffca2cbe959383edf0976d041ece9e5
輸入數據即使只改變一個字節，它的 hash 值也會大不相同。

對於一個數據來說，它的 hash 值是唯一的，最重要的是，你沒有辦法從輸出的這串數字裏面推導破解出原始的輸入值。

這樣一來，如果給定一臺機器一串哈希值，讓這臺機器去找出符合某些特點的哈希值的原始輸入值，你手工計算的話估計找一輩子也找不出來，機器也只能一個值一個值反覆去試。如果機器不斷窮舉，最終碰運氣試到了正確答案，那麼，機器提交答案時，我想知道你這個答案是不是正確的，只要把這個答案 hash 一下，看輸出值是不是和要求的一樣就行了。也就是說，檢驗的過程是很簡單的。

hashcash 就利用了 hahs 函數的這些特點，讓機器不斷地嘗試不同的數字，找出題目要求的那個值。在實際應用中，我們不需要機器找出某一個特定的哈希值，因爲這是不可能的事情（從概率上來說），我們只要求機器找出符合某些條件的哈希值就行，比如，這個條件可以是：哈希值的前二十位都是零。

在比特幣裏，這個條件則是不斷動態變化的，隨着時間和礦工的增多，算力要求也越來越多，通過調整題目的難度，我們可以控制機器找到答案的速度，最終保持平均每 10 分鐘產出一個區塊的速度。

hashcash

hashcash 的基本原理，抽象出來就是上面所說的那套做法。

在比特幣之前，hashcash 最廣泛的應用是反垃圾郵件。

我們希望，如果需要的話，每個人只要知道 emial 地址，就可以直接方便地給我們發郵件。但同時，我們又不希望，一旦自己的 email 地址暴露出去，會被壞人拿去羣發垃圾郵件和廣告郵件。

如果能讓機器在發郵件之前，都需要付出一定的算力來找到正確的哈希數字，那麼，每個人依然可以自由的通過 email 發郵件，但那些想用機器批量發垃圾廣告的人，就得付出不少代價了。

你可能會問，如果一旦找到正確的哈希數字，機器不就可以一直使用這個數字來羣發郵件了？

爲了防止這個問題，hashcash 要求哈希數字必須包含一個時間戳。

時間戳就像郵戳一樣，它代表了這個答案是在什麼時候被計算出來的，如果超過一定的時限，這個答案將過期作廢。

hashcash 讓機器在發郵件的時候，需要在發送郵件的數據頭部里加入一個字符串 X-Hashcash ，這個字符串長這個樣子：

1:bits:date:resource:ext:salt:suffix
X-Hashcash 其實就是提交答案的戳記，它包括 7 個域：

版本號（版本 0 更簡單，但是有一些侷限性）。

聲明的比特值。如果戳記沒有真正地使用聲明的前導零比特進行散列，那麼它就是非法的。

生成戳記的日期（和時間）。可以認爲當前時間之後的戳記以及那些在很久以前的戳記是非法的。

戳記爲哪個資源而生成。可能是一個電子郵件地址，但是也可能是一個 URI 或者其他命名的資源。

特定應用程序可能需要的擴展。任何附加的數據都可以放置在這裏，但是，在到目前爲止的使用中，這個域通常是空的。

將該戳記與其他所有人爲相同的資源在同一日期生成的戳記區別開來的隨機因子（salt）。例如，兩個不同的人可以合情合理地在同一天向我的同一個地址發送電子郵件。他們不應該由於我使用了 double spend 數據庫而無法發送成功。但是，如果他們每個人都使用一個隨機因子，那麼完整戳記將是不同的。

後綴是算法真正起作用的部分。假定給出了前 6 個域，爲了生成一個通過期望數目的前導零進行散列的的戳記，minter 必須嘗試很多連續的後綴值。

我們讓郵件加上了證明機器合法性的戳記，這樣別人想給你發郵件，他只要像以前那樣正常寫郵件就行了，機器會自動在後臺生成一個戳記附在郵件上，對方接收時只要檢查這個戳記是不是合法的，就能決定要不要接收這封郵件了。

hashcash 的意義

hashcash 能讓我們知道發送郵件的是一個真實的用戶、還是一個羣發郵件的廣告營銷機器。這套方法擴展開來，不止可以應用在反垃圾郵件裏，同樣，它也可以用在服務器的應答機制裏。

我們知道，你通過瀏覽器輸入一串地址，之所以能返回一個固定的網頁，得益於 http 通信協議的設計。http 規定，瀏覽器發起一個請求，那麼服務器就響應這個請求，返回瀏覽器指定的內容。這個協議本質上非常簡單，它不做太多的額外的狀態判斷，只遵循簡單的「一問一答」。

因爲 http 協議設計太簡單，服務器就像一個 email 地址一樣，一旦我們知道輸入一個網址就可以返回某個資源或者對服務器進行某項操作，我們就可以利用機器批量地給一臺服務器連續不斷地「寫信」。服務器對每個請求都做出迴應，最終會消耗大量的服務器資源，從而影響正常用戶的訪問。這就是 DDoS 攻擊。

在現實生活中，我們花費了大量的力氣來修補類似 DDoS 攻擊這樣的安全問題。我們發明了各種各樣的服務器防禦機制來判斷請求的合法性。但這些方法，都是通過封裝一些其他層面的數據和函數來保護服務器，比如反爬蟲可能會通過判斷短時間內連續訪問的 IP 是不是同一個、每次請求的時間是不是小於人們肉身可以操作的速度，從而判定是不是有人藉助機器進行批量操作。

這些方法，相當於額外在 http 這層協議上再造了一個「安檢通道」， http 協議本身並不具備「安檢」的能力。如果我們能通過 hashcash，讓 http 請求本身自帶機器自我證明的信息，這樣一來，我們就可以在協議本身的設計上避免類似 DDoS 這樣的漏洞和攻擊。

而這也是區塊鏈技術相比於傳統互聯網技術最重要的不同點之一。通過區塊鏈、通過 hashcash、通過比特幣的共識機制，我們讓機器在底層傳輸協議上活動時都附帶上了一些額外的信息，這些額外的信息將被用來證明機器自身的合法性，從而在協議層創造出一個機器與機器之間可以彼此信任的網絡環境。

一旦機器與機器之間是可信的，我們就將創造出一個新的互聯網。

在這個新的互聯網裏，機器可以判斷其他機器進行請求是否合法，從而使得服務器懂得如何更合理地分配資源。

在這個新的互聯網裏，我們可以編寫新的應用，也就是智能合約，然後把智能合約放心地交給機器自動執行。這套智能合約可以穩定地運作下去，而不必擔心網絡中有機器不執行智能合約、或者對智能合約進行篡改、出現機器叛徒。這是以太坊誕生的基礎。

總結：區塊鏈的本質

總而言之，從 hashcash 的設計原理出發，我們擁有了另一種對區塊鏈的見解：

比特幣和區塊鏈本質上是爲了解決機器與機器之間的信任問題。通過保證機器是可信的，從而保證網絡的可信度；通過保證網絡的可信度，從而使得加入網絡的人們能在互信的環境裏共同遵守規則，藉助 token 和激勵機制的設計，最終讓人們的個人利益與羣體共同利益貼合在一起，最終使得網絡的羣體都往同一個方向發展。

比特幣觀點