導 LEAD 語

區塊鏈+基因檢測可行?不暴露個人信息就能測序基因組!

來源 | Wired

編譯 | 火火醬

責編 | Carol

出品 | 區塊鏈大本營(blockchain_camp)

通過使用區塊鏈技術,Nebula Genomics 公司爲客戶設計了一種無需透露個人身份數據就能測序基因組的方法。

當生物學研究人員晚上入睡時,他們通常會夢到基因組。你的、我的、以及我們之間“六度分離理論”所涉及的所有人(六度分離理論指“你和任何一個陌生人之間所間隔的人不會超過五個,也就是說,最多通過五個人你就能夠認識任何一個陌生人。”)。

想想,所有包含在這 60 億個遺傳密碼字母中的基因信息,正是這些基因信息讓你成爲了獨一無二的你。 只要科學家能夠收集到足夠的信息,那麼就能找到藏在 DNA 中的那些摧毀致命疾病的方法。

到目前爲止,全球至少有 2600 萬人部分基因組已經被解碼了——大部分是由 23andMe 和 Ancestry 這樣的公司破解的,但其中很大部分是屬於部分解碼,只有一小部分被全部解碼。

在十年前的 2009 年,破解一個完整的基因組會花費 10 萬美元,如今,可能只要 1000 美元。業界有企業認爲,到 2021 年,還將有可能低破 100 美元。那麼,所有的基因組都在哪裏呢?有一些聲音認爲,未來的測序師已經被“個人數據隱私”這個因素給嚇跑了。

Nebula Genomics 的首席技術官 Kevin Quinn 表示,在 2018 年 Facebook/Cambridge Analytica 醜聞爆出後不久,隱私保護的大覺醒就開始了。“人們開始意識到,他們每天使用的服務並沒有按照預期的方式進行,”他說,“這對基因學領域造成了很大的衝擊。”

23andMe 的 CEO Anne Wojcicki 也表示, 對隱私的擔憂是 DNA 檢測銷量下滑的主要原因。 包括 Nebula 在內的幾家新興企業試圖通過將人們的 DNA 放在區塊鏈上的方式來解決這些問題。

這家新興企業是由哈佛基因組學先驅 George Church 參與聯合創辦的,去年年初推出時,以 99 美元的價格提供低質量的基因組測序服務,並將數據訪問控制寫入公共賬本中。

今年夏天,他們增加了一個“贊助測序”模型,如果客戶讓 Nebula 與醫藥合作伙伴共享鑑定的 DNA 和其他數據,那麼該模型將爲客戶提供免費的臨牀級基因組檢測。 之後,該公司推出了該領域的第一個“匿名測序”程序,該程序旨在實現個人信息完全匿名化

區塊鏈+基因檢測可行?不暴露個人信息就能測序基因組!

當你從 23andMe 或 Ancestry 這樣的公司訂購唾液採集包時,必須使用信用卡付款並輸入地址。你需要用郵箱註冊賬號來查看結果。所有這一切都是在互聯網瀏覽器上完成的。

並且,所有的數據都與唾液管內旋轉的 DNA 相關聯,很快就會變成一個由短字符 As、Cs、Ts 和 Gs 組成的數據文件。在公司與想要挖掘這些基因數據的研究人員或製藥公司分享這些數據之前,他們必須剝離掉所有的這些個人標識。

Nebula 已經做到了,但是 Quinn 說, 顧客必須相信所有東西都能得到妥善地清理,並且不會有人把事情搞砸。匿名測序的理念從最一開始就是與個人信息相分離的。

這就是爲什麼匿名測序的第一步就是更爲全面地清理你的電子商務習慣。 Nebula 建議使用加密電子郵件(由 Enigmail、Mailvelope 和 Protonmai 等公司提供的服務),並使用 VPN 掩蓋你的瀏覽行爲。

而且,你必須要有一個與你的名字無關的地址,PO Box 在這時就可以派上用場了。 安全的加密錢包或者預加載的信用卡也是必不可少的。 完成所有步驟後,你就可以匿名購買並收到 Nebula 唾液採集包了。 該公司對你的基因組進行測序,然後將其放到他們的安全雲中,沒有人會知道這組基因屬於誰。

區塊鏈+基因檢測可行?不暴露個人信息就能測序基因組!

Quinn 說:“我們這邊不需要去識別它屬於誰,因爲它本質上已經是獨立的了。以前從來沒有人這麼做過。”該公司表示,雖然這個流程建立在“不信任 Nebula”的基礎上,但它實際上是在建立信任。我知道這聽起來是有點反常理,但是,這畢竟是區塊鏈嘛。

只有一個很小的雙螺旋型問題。基因組本身就是一個獨一無二的標識符(從美國錯綜複雜的基因隱私法來看或許會有不同的看法),但是,近年來,研究人員發現,使用公共數據庫(例如警察用來抓獲“金州殺手”的那些數據庫), 僅通過 DNA 來識別個人身份 的可能性越來越高。“如果你有 60 億對鹼基對,你還管別人叫什麼幹嘛?那本身就是一個更獨特的標識符了啊,”生物信息學家 Mark Gerstein (耶魯大學生物醫學數據科學中心主任)說道。

爲了防止黑客從 DNA 基因組存儲庫中竊取數據,並將其與其他數據結合以重新識別人的身份,應該對數據進行加密,但是這僅僅是數據安全的第一步。

Gerstein 提到,問題在於讀取基因組需要將其與其他人的 DNA 進行比較,這也是瞭解其中字母含義的唯一方法。 對基因組進行加密後,它也會對所有軟件保持加密狀態,而這些軟件本會告訴你“你的祖先來自哪裏”或者“你的 APOE4 版本是否會讓你更容易患上阿爾茨海默症”。

區塊鏈+基因檢測可行?不暴露個人信息就能測序基因組!

“這個過程是需要計算才能理解的,這意味着基因組需要在服務器和數據庫之間移動。在不揭示基礎序列的情況下要這麼做是非常棘手的。”因爲基因組數據非常龐大。銀行號碼、納稅申報單、醫療記錄等都是小文件。

所以,提供 knowledge-less storage (無知識存儲)的公司可以對該數據進行加密,並提供唯一的密鑰。對整個基因組進行加密的計算成本要高得多,而在加密的基因組上運行計算的成本則會更高。

但這正是 Nebula 下一步要做的工作。在過去的一年中,Nebula 一直在與研究人員合作以構建和測試安全的計算環境,相關的出版物目前正在接受審覈。

該公司計劃從明年開始部署這項技術,首先使用該公司自己的基因組解釋服務, 該服務將向客戶介紹他們的健康狀況和祖先血統,最終與學術和製藥研究合作伙伴合作。 目前,這些計算在 Nebula 存儲基因組數據的分佈式網絡上進行。

合作伙伴可以提交查詢(例如,是否存在導致阿爾茨海默氏症的 APOE 變體),並且只能查看查詢結果。只有 Nebula 和基因組所有者纔可以訪問純文本數據。最終想要實現的功能是,即使是 Nebula 也將無權訪問,只有基因組所有者才能訪問。

儘管 Gerstein 是個愛吹毛求疵的人,但他面對這一進展仍感到十分激動。他說:“就開發真正的私有基因組測序和儲存的選擇而言,這一步意義重大。” 因爲他預計在不久的將來,測序將會像測血壓一樣成爲醫生辦公室的家常便飯 。現在將這些保護措施規範化或許有助於防止日後出現更強的反對和抵制。科學家們,祝你們好夢!

薦閱讀:

幣安首次被盜,7000BTC 不翼而飛

溢價太誇張,CoinMarketCap 停止採用 Bitfinex 的比特幣價格

微軟 Outlook 數據泄露,加密貨幣用戶成黑客目標