計算社會經濟學：刷微博預測 GDP | 鋅薦

由 熱鏈中的人 於 9 月 10, 2019

鋅薦

本期推薦人：龔海瀚**——鋅鏈接創始人**

大數據時代，數據量級猛增，但只有高價值結構化數據纔是真正被人們需要的。因爲訓練算法所用的數據價值越高，得出的結論越精準。

高價值結構化數據並不易得。爲了解決這個問題，文中作者提出了新方法，只要通過設計好的算法程序，結合全體尺度易獲得數據、少量難以獲得的高價值結構化數據和機器學習算法，便能推斷全體尺度難以獲得的高價值結構化數據。這既節省了採集數據的成本和時間，又能達到發現個人和社會經濟規律的目的。

**
**

然而，數據來源的真實性和數據樣本的隨機性都是這一領域面臨的難題。需要藉助人工智能與大數據，研究方法要與時俱進，在實踐中獲得真知，再反饋給理論研究，形成良性循環。

我爲鋅鏈接推薦此文。

——***龔海瀚***

本文轉載自公衆號：集智俱樂部（ID：swarma_org）文：Leo

隨着數據量的日益增“大”、計算能力的增強，研究者利用“計算社會經濟學”方法，可以更好地理解社會經濟系統的組織結構，及時估算出社會經濟狀態，這對經濟發展具有重要意義。

電子科技大學的周濤、高見和瑞士弗裏堡大學的張翼成，近日在 Physics Reports 期刊上發表了題爲“Computational Socioeconomics”的綜述，着重介紹計算社會經濟學（Computational Socioeconomics）這一新興的跨學科研究領域。本文將通過解讀這篇論文，來介紹這個研究領域的數據來源、計算工具方法、理論模型和新應用。

計算社會經濟學：
大數據助力下的社會科學新篇章

從定性到定量的研究是諸多學科所經歷的發展歷程，以物理化學爲代表的自然科學是定量研究的典範。可是與自然科學相比，社會科學的定量化研究起步較晚。
在社會科學、經濟學中定量研究是以數據爲基礎，以統計學爲研究手段，對社會經濟的現象、過程和結構進行實證研究的研究方法。儘管與自然科學相比，社會科學的研究對象更爲多元複雜，定量研究已經讓社會學具備了“事後諸葛亮”的能力。
然而，基於此構建出來的模型，對社會經濟的未來並不具備良好的預測能力。隨着信息技術的發展，研究者獲取數據和處理數據的能力都有了顯著的提升，這也促進了社會經濟定量研究的進一步發展。值得注意的是，信息化浪潮所帶來的新數據與傳統的統計數據有着明顯的不同： 一、數據的形式不僅是傳統的統計數字，還包含了大量非結構化的多媒體數據。這就意味着必須把現代的數據挖掘和機器學習技術應用到社會科學中；二、數據的規模和維度，數據產生的速度等都不可同日而語。相比於以前以年、季度、月爲單位的數據統計模式，網絡時代可以讓研究者實時地收集全體尺度數據。這些都是“大數據”的典型特徵。隨着數據量的日益增“大”、計算能力的增強，研究者能夠更好地理解社會經濟系統的組織結構，及時估算出社會經濟狀態，這對感知社會經濟態勢和理解社會經濟規律具有重要的意義。

周濤和高見認爲，計算社會經濟學中有三個要素極爲關鍵：定量化、真實數據、大規模。
第一是“定量化”，強調用數值而非描述來刻畫問題和呈現結果，定量化是研究方法是否科學的標誌；
第二是“真實數據”，強調理論模型必須要服從真實數據，以對真實數據的解釋和預測能力爲評價準繩。經典的經濟學理論陷入了優美程度大於實用程度，理想化超過了現實化的窘境。
第三是“大規模”，強調儘可能獲取能夠直接反映全體的數據樣本。數據樣本規模小，有時候帶來的不僅僅是偏差，還可能是完全錯誤的結論。

圖中整體的樣本規模（白色）、容易獲取的數據（淺藍）和一小部分高價值但是不容易獲取的數據（深藍）三者之間的關係。周濤和高見認爲可以通過精心設計好的算法程序，結合全體尺度易獲得數據，少量難以獲得的高價值數據和機器學習算法，去推斷全體尺度難以獲得的高價值數據，是計算社會經濟學研究中很有代表性的一種新方法，體現了社會科學和計算機科學理念和方法的深度融合。

全球經濟發展中的不均衡與複雜性

長期以來，揭示不同地區的經濟發展狀況都是社會經濟學的重要研究課題，利用衛星遙感獲取的夜間燈光（nighttime lights， NTLs）衛星影像爲研究一個地區的經濟活躍程度提供了有效的輔助信息。一個地區夜間越亮，則說明這一地區越富有。特別是在統計數據資料缺乏的情況下，尤其是在一些欠發達地區，衛星遙感數據就具備極大的潛力。

利用衛星夜間光源數據繪製的貧困人口比例地圖，顏色越深表示貧困人口的比例越高。

結合上現代的機器學習技術，在即便是 NTLs 不充足的地方（貧困地區夜間整體偏暗），可以利用白天的遙感影像數據與夜間圖像進行遷移學習。由此，將白天衛星遙感圖像所包含的景觀信息和夜間 NTLs 所包含的經濟信息就建立起了關聯。
利用 CNN 通過衛星遙感數據預測經濟活動自從 2009 年以來，有學者提出了一個新的衡量國家經濟實力的指標經濟複雜性係數（Economic Complexity Index，ECI）。
這一指標是根據國家間進出口數據繪製得到的“國家-產品”二部圖網絡，再經過迭代運算得到的指標性數據。同樣，根據“國家-產品”二部圖網絡構建出的 Fitness 指標能夠預測一個經濟體未來的發展趨勢。
Fitness-人均 GDP 變化趨勢圖像，橫座標是 Fitness 指標、縱座標是人均 GDP

我們可以把上圖分爲兩個區。左側，當 Fitness 指數很低、經濟不夠複雜的時候，圖像呈現出混亂的現象，也無法給出準確的預測；而對於右側而言，當經濟複雜性很高的時候，經濟就處於一個“平流層”的區域中，這時的經濟發展趨勢、GDP 就可以被很好地預測。

區域經濟發展

隨着我們能夠掌握越來越多的“大”數據，高精度的數據有助於我們在城市量級上去刻畫地區的經濟發展水平。前文提到的夜間燈光（NTLs）數據，在城市這種相對小的尺寸下也適用。麥吉爾大學的 Naizhuo Zhao 等人就利用 NTLs 數據繪製出了華南地區“像素級”的 GDP 數據。

中國華南地區“像素級”GDP 地圖衆所周知，隨着互聯網的發展，特別是隨着智能手機而興起的移動互聯網，線上的網絡社交生活已經成爲了影響日常生活不可忽視的一部分，以布萊恩·阿瑟的話來說，這已經成爲了一個虛擬的經濟體。因此，在線社交網絡分析也得到了越來越多的關注。
此外，在線社交網絡數據具備着採集成本低、覆蓋範圍廣泛、實時性強等優勢。研究者已經也把相關數據用於進行社會經濟學分析。周濤的研究團隊曾把 2009 至 2012 年間的近 2 億名微博用戶的註冊地區進行了統計。

微博用戶的註冊地區分佈（左圖），和 GDP 分佈情況（右圖）（以地級市爲統計單位）如上圖所示，在一些地區社交網絡用戶的分佈和 GDP 分佈情況存在一定的差異。換句話說，通過社交數據分析出的某些城市的經濟情況和 GDP 反映出的經濟情況存在出入。
由此研究者設計出了一個通過社交數據預測 GDP 的算法，研究者意識到，在某些 GDP 較高的地區經濟多樣性較差，對能源礦產資源的依賴過重，而事實上，這些地區在 2013 年都經歷了經濟下滑。不僅僅社交網絡的數據能夠解釋 GDP 的發展趨勢。周濤的研究團隊利用基於微博數據的信息流動（關注和轉發等）和基於簡歷數據的人才流動（工作地點變化），繪製出了不同區域間信息流動的方向和人才流動的方向。

微博信息流示意圖（左圖）和（簡歷）人才流示意圖（右圖）

研究者發現，二者都能有效的對經濟發展做出預測，人才流動網絡的樣本數據僅爲信息流動網絡的樣本數據的 1/3000，但人才流動網絡的結構對 GDP 的解釋能力更強。

個人經濟預測

計算社會經濟學的一大優勢即體現在能從不同的尺度上，分析預測不同研究對象的經濟情況。
計算經濟學的研究方法，不僅僅對宏觀區域經濟的發展狀況評估，也能對微觀個體的經濟情況進行估計。在對個體進行的研究中，研究者最主要使用的兩類數據是移動電話（mobile phones， MPs）和社交網絡（ social media， SM）。紐約城市大學的 Shao-Jun Luo 等人做過一項研究，把拉丁美洲每個人的手機通信數據繪製成一個巨大的社交網絡（該網絡一共包含一億零七百萬的手機用戶）。
經濟水平處於最頂層的 1% （左側）和最底層的 10%（右側）的通信網絡
通過上圖我們可以看出，經濟水平高的手機用戶，社交網絡明顯更廣闊，更多樣；而相對貧窮的用戶的社交網絡則更加集中，缺乏多樣性。下圖則展示了兩種不同類型人的社交關係網絡。

經濟水平處於最頂層的 1% （左側）和最底層的 10%（右側）的人際關係網絡（ ego-network）從圖中可以明顯看出“高端人士”的社交生活更加豐富多彩。本綜述論文的作者周濤、高見也曾在 2018 年做過一項有趣的研究，他們沒有把預測個人經濟水平作爲研究目的，而是通過分析在校大學生行爲數據來預測學生的學習成績。研究者利用學生校園刷卡的數據，分析學生日常生活的規律性，並由此來預測學生的學業成績。
利用學生行爲數據預測學業成績。從左到右的四個步驟分別是：1. 學生校園卡使用記錄；2. 提取日常行爲數據；3 分析行爲的規律；4 預測學生學業表現（GPA）。

應急管理與險情急救

計算社會經濟學的一個有力的應用就體現在對於緊急突發事件的預測和響應。同時爲管理者提供有效的決策參考。

在 2010 年海地大地震發生後，呂欣等人利用手機 SIM 卡信息。統計分析出了當地的人口遷移情況。
海地大地震後災後人口遷移情況，紅色曲線表示首都太子港（PaP）的人口遷移（減少）情況。通過上圖我們可以發現，在地震後，人口發生了銳減，而進一步的分析可以發現離開太子港的人都去到了他們有人際聯繫的其他城市。這一點也爲災後的人口流動趨勢提供了有利的幫助。

計算社會經濟學的前景**

作爲一門跨學科的新興領域，計算社會經濟學有着傳統學科所無法比擬的優勢。但論文作者也指出了這一領域存在的問題。

一、數據的質量，特別是真實性難以得到保障。雖然，相比於模擬仿真而言，來源於真實世界的數據確實是計算社會經濟學的優勢所在。但來自社交媒體的數據的真實性也往往被人質疑。
很多社交媒體中用戶的相當一部分都不是真人，而是機器人。被機器人操縱的網絡議題，會影響人們的看法。從這些混雜了機器人行爲在內的數據出發所得到的結論，可能與真實情況偏差很大。二、研究結果的適用範圍和相關性有限。計算社會經濟學目前所使用的數據源所覆蓋的人羣數量雖然在整個人口中都佔有相當比例，但是並不能保證這個樣本具有隨機性，能夠真正代表整個人口。例如特別貧困的人、小孩子和老人對於互聯網和移動互聯網的參與度都很低，不太容易被上述數據覆蓋到。另外，社會經濟問題會受到所在地宗教、文化和政治的影響，因此在一個地方適用的結論，不一定在其他地方也適用。爲此，周濤、高見和張翼成提出了計算社會經濟學未來研究的五個發展方向：1）嘗試設計具有很強解釋和預測能力的新指標。2）利用數據驅動的方法論，對傳統社會經濟學理論的正確性和適用性進行重新分析。3）發現因果關係，形成理論洞見。4）要通過控制實驗驗證新的理論成果。5）將理論和實證分析的方法與結果用於實踐。被大數據與人工智能注入新活力的計算社會經濟學，仍然處於起步階段，但可以預料到的是，這一交叉領域的未來必將豐富多彩。會讓不同學科背景的研究者進入這一領域，爲社會科學帶來新的研究範式。

歡迎加入我們的社羣

公衆號後臺回覆\” 入羣 \”即可

今日頭條／騰訊新聞／鳳凰新聞／百家號／搜狐新聞／一點資訊／雪球等 50 多家媒體入駐賬號