煉數成金 門戶 商業智能 知識圖譜 查看內容

OpenKG區塊鏈:構建可信開放的聯邦知識圖譜平臺

2020-9-3 14:46| 發布者: 煉數成金_小數| 查看: 66083| 評論: 0|原作者: 陳華鈞、胡凝|來自: 將門創投

摘要: 經過一年努力,OpenKG初步完成了底層區塊鏈平臺測試,以及OpenKG數據集、工具集和Openbase細粒度知識眾包的上鏈測試工作。在這個測試平臺中,已包含1033位確權的知識貢獻者。上鏈測試兩個月,累計由真實知識消費者觸 ...
本文作者:
陳華鈞(浙江大學)、胡凝(Onchain)、漆桂林(東南大學)、王昊奮(同濟大學)、畢楨(浙江大學)、李捷(Onchain)、楊帆(浙江大學)

導讀:
本文介紹了OpenKG在區塊鏈方向的一些實踐和嘗試。經過一年努力,OpenKG初步完成了底層區塊鏈平臺測試,以及OpenKG數據集、工具集和Openbase細粒度知識眾包的上鏈測試工作。在這個測試平臺中,已包含1033位確權的知識貢獻者。上鏈測試兩個月,累計由真實知識消費者觸發的知識點亮和鏈上存證次數已達55萬次(日均峰值一萬多次),并首次測試實現了實體/三元組粒度的知識確權。目前,通過OpenKG發布的開放圖譜和開源工具,以及通過Openbase眾包采集的三元組,OpenKG都在鏈上進行存證操作,并計算和分配產生的榮譽值。OpenKG希望通過這項工作為知識圖譜社區提供更加可信、可溯源的知識眾包平臺。

本文也梳理了在OpenKG上鏈實踐過程中的一些思考:知識是有價值的,即使是權限可控的單一機構內部,知識來源也是多樣化的,必定存在知識的價值量化、確權、溯源、隱私及可信等多方面問題。要在知識生產和消費閉環中平衡知識的責、權、利,并有效的激勵眾包,一種方法就是讓知識上鏈,并構建知識的區塊鏈系統。OpenKG作為新技術測試床,在相關方向努力做一些粗淺嘗試,也希望為各企業機構建立知識圖譜眾包平臺提供參考。在實踐過程中,我們也發現很多問題和挑戰,如細粒度知識確權帶來的性能問題、細粒度知識眾包的價值計算公平性問題、知識圖譜的去中心化存儲問題等,這些都需要更深入的研究和實踐。

一、知識圖譜的價值聯邦
1.1 從語義網的三個內涵說起
知識圖譜的早期理念源于Web之父 Tim Berners Lee 關于語義網 (The Semantic Web) 的設想,旨在采用圖的結構來建模和記錄世界萬物之間的關聯關系,并沉淀關于萬物的知識。經過近二十年的發展,知識圖譜的相關技術已經在搜索引擎、智能問答、語言及視覺理解、大數據決策分析、智能設備物聯等眾多領域得到廣泛應用,被公認為是實現認知智能和智能互聯的重要基石。

盡管知識圖譜技術取得飛速進步,但仍然僅實現了語義網的三分之一的愿景。根據Tim Berners Lee的早期設想,語義互聯網的目標是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。這有三個方面的內涵:知識互聯、去中心化和知識的可信。三個內涵分別對應互聯網的三個核心問題。

知識互聯旨在設計一種統一的知識表示框架來將分散的數據相互關聯起來,以便利用圖的結構特點來實現體驗更好的搜索、問答、分析等能力。早期的Linked Data即是這一理念的體現。而知識圖譜則是目前知識互聯最有影響力的體現。
去中心化是對Web架構的設想。盡管Web仍然沒有實現去中心化設計,但互聯網數據具有分散自治的特點,知識的生產者理應擁有知識的所有權和控制權。因此,去中心化構想反映的是對知識確權的要求。
知識的可信是指通過互聯網發布的知識應該是可溯責的 (Accountability)。由于互聯網的開放性和匿名性,知識可能真假難辨,且會隨著時間真假發生變化。因此,合理的知識發布機制還需要對知識進行可信度量和鑒別真假。

這三個內涵第一個與知識的表示框架有關,第二個與互聯網的分布式架構有關,第三個與互聯網的社會屬性有關。而當前的企業級知識圖譜管理架構主要考慮知識的互聯,而忽視或弱化了知識的價值量化、分布式確權和可信度量等眾多問題。

1.2 知識的價值鏈
知識是有價值的
知識是有價值的。互聯網中的知識之間存在相關性,這些知識相互鏈接,形成知識圖譜。互聯網作為知識保存的一個載體,同時支持知識使用的場景,也承載新知識的產生。更為具體來說互聯網知識有以下幾個特性:

知識圖譜包含知識和知識之間的聯系;
知識節點存在價值,知識的聯系也有價值;
知識因為“被使用”而產生價值;
被“證偽”的知識也存在價值,甚至在某些場景中,“反知識”更加令人記憶深刻;
知識的價值可以隨著知識的聯系進行傳遞。

知識的責、權、利
知識圖譜技術強調將分散的碎片化數據相互關聯、鏈接融合。即使是在單一的企業或機構內部,知識圖譜的數據也通常來源于不同部門。知識圖譜的構建通常需要依靠多部門協作完成。因此,一個好的知識圖譜的構建平臺需要有明晰的責、權、利方面的考慮,而非僅僅考慮數據清洗、算法抽取、協同編輯等功能。

如圖1所示,從知識的生產者的視角,首先要考慮知識的價值量化方法。簡單的價值量化模型可以依據知識的使用頻率,即知識被使用的越多,知識的價值越高。合理的價值量化是知識眾包激勵的基本前提。

其次,要考量知識的所有權和控制權保護,即:知識確權。即便在一個權限可集中控制的企業內部,由于知識圖譜中的知識粒度很細,在三元組級別考慮知識的確權問題也帶來極大的技術挑戰。知識的合理確權也是知識眾包激勵的基本保障。

再次,知識產生的結果未必總是正面的,錯誤、虛假甚至惡意的知識會給下游的知識使用者帶來不利后果,因此不僅要考慮知識獲取的正面激勵,還需要提供必要的機制來追溯知識的來源,即:知識溯責 (Accountability)。有效的知識溯責,可以幫助提升知識圖譜的眾包質量,對抗虛假和惡意的知識輸入。

更進一步,知識最終需要解決知識的可信問題,即:可信度量。知識圖譜中的每條三元組代表對客觀世界的一條事實描述。這些事實型知識不僅有真假緯度的可信問題,也因為很多事實本身具有不確定和時效性,也帶來知識不確定的可信度量問題。


圖1. 知識圖譜的價值聯邦

知識的價值點亮與傳播
知識的消費是衡量知識價值最直接的方式。知識被用得越多,知識的價值越高。同時知識的消費觸發知識的價值傳播。我們將知識被消費的過程稱為知識的價值點亮。知識圖譜使用場景支持不同的知識使用者有限的“點亮”知識圖譜中的節點,從而觸發知識傳播。

“搜索點亮”是指知識的使用者在搜索過程對知識進行消費,從而觸發被搜索知識條目的價值點亮。知識圖譜支持語義關聯搜索,進一步的關聯搜索將繼續觸發新的知識點亮。每一步點亮都對產生的價值進行記錄和存證。同時由于知識來源于不同的生產者,價值也需要以合理的方式分配給價值傳播鏈上對應的知識生產者。

“問答點亮”和“搜索點亮”比較類似,消費者和知識庫進行問答交互的過程即是消費過程。被問答觸及的知識條目是被問答點亮的知識,問答檢索過程中從起始節點到達答案節點所遍歷的中間節點也將被點亮和價值存證。

“推理點亮”是指推理過程觸發的知識點亮。知識圖譜中的知識通常是不完備的,對知識圖譜的推理過程是基于知識圖譜中的已有知識完成。同時,由于知識來源眾多,推理點亮的過程可能也是以聯邦的方式完成,即:聯邦推理點亮。

“分析點亮”是指將來源不同的知識進行綜合分析從而不斷觸發知識圖譜中相關知識的點亮過程。同樣的,由于知識來源多樣,分析的過程也可能是以聯邦方式完成的,比如可能通過聯邦學習的方式建立分析模型。

如下圖(橫軸代表時間,每條曲線都經過校準,以便在同一坐標系內可見):

圖2. 知識的價值曲線


語義網的三個內涵和價值傳播模型提出了三層次的“分布”需求:每個知識點和知識聯系由貢獻者(可以是人工智能)提供,這些貢獻者表現出“分布”的形態。

1.3 聯邦知識圖譜眾包
綜上所述,知識是有價值的,知識的生產、交換和消費必定形成社區和群體的交易和協作。我們把通過社區和群體的聯邦式協作構建的知識圖譜稱為聯邦知識圖譜 (Federated Knowledge Graph)。

聯邦知識圖譜因為需要構架在一個分散并可能去中心化的分布式網絡上,必定面臨激勵、確權、溯責、信任和隱私等諸多問題。而現有集中式的知識圖譜構建平臺不考慮不同單位和部門的權力、責任和利益,也就無法激勵知識的共享互聯,也無法保證知識的真實性和時效性。

如圖3所示,完整的知識圖譜構建和消費需要考慮知識生產、知識傳播和知識消費三個層次。知識生產層對應傳統的如知識建模、抽取、融合、校驗等技術。知識的傳播層責需要考慮知識的價值量化、知識確權、知識溯責、知識的可信度量、知識眾包的共享激勵以及數據的隱私保護。知識消費層包含有搜索問答、推理分析、聯邦知識學習,以及流程自動化如RPA等各種需要建立在分散式知識源的系列應用。


圖3. 聯邦知識圖譜技術平臺架構

二、知識圖譜與區塊鏈
2.1 關于區塊鏈與分布式賬本
分布式賬本 (Distributed Ledger Technology,縮寫作 DLT) 是一個于多站點、多地區或多家機構所組成的網絡上進行電子數據復制、共享及同步的共識,不存在中心管理員或集中的數據存儲。交易記賬由分布在不同地方的多個節點共同完成,而且每一個節點記錄的是完整的賬目,因此它們都可以參與監督交易合法性,同時也可以共同為其作證。

區塊鏈是分布式賬本技術的一種。區塊鏈每個節點都按照塊鏈式結構存儲完整的數據,并且每個節點的權利和義務相同。區塊鏈以P2P對等網絡構成網絡層基礎架構,以分布式數據庫作為物理載體,以分布式時間戳構成區塊時序,以共識算法實現數據的一致存儲,以密碼學協議為鏈上數據的傳輸和訪問提供安全性、完整性、無法抵賴性的技術支撐,以智能合約的技術為分布式應用提供可擴展的合約編碼和一致執行的能力。區塊鏈是點對點通信、數字加密、多方協同共識算法等多個領域的融合技術,具有防篡改、鏈上數據可溯源(可確權)的特性。

區塊鏈節點獨立運營,僅對自己負責,以共識算法達成區塊鏈節點之間的賬本一致性。技術運營角度,節點可以“作惡”,但是區塊鏈節點的作惡行為,可以在共識算法的容錯范圍之內被識別出來的;商業運營角度,節點以個體利益較大化為原則同其他節點進行協同工作,有意愿監督網絡中其他節點的作惡行為,而作惡行為的代價高于破壞帶來的可能收益,從而達成“防篡改”的效果。這是一個 “競爭性協同”的技術環境。因此,在共識容錯范圍之內,區塊鏈技術提供無需信任擔保的 “信任”基礎設施。

簡而言之,區塊鏈提供事務和數據可信的確權和防篡改能力。基于區塊鏈的系統結構可以表述為:以中心化技術提供高性能的業務實現,以多中心化區塊鏈網絡支持可信的基礎設施,提供分布式的去中介化的實用場景。

由于本文僅僅使用到部分區塊鏈相關技術,限于篇幅,本文不對區塊鏈及分布式賬本技術做詳細介紹。更多技術細節請參考相關書籍。

圖4. 不同類型的分布式網絡架構

2.2 鏈上知識:知識的區塊鏈
如前文所述,知識是有價值的,要解決知識生產和消費閉環中的價值量化、確權、溯源及可信度量等問題,就需要讓知識上鏈,通過構建面向知識的區塊鏈來解決諸多問題。具體而言,區塊鏈之于知識有如下幾個方面的價值:

利用區塊鏈技術進行知識數據的保護,在知識構建和使用的過程中,采用了多種數據密碼算法,保證了數據的隱私和安全,同時基于分布式賬本特點,在區塊鏈網絡中多個節點保留完整的知識數據和索引,避免了知識的丟失和破壞;
利用區塊鏈技術進行信息公開,基于分布式賬本實現聯邦知識圖譜各參與方的知識同步和一致性確權,且區塊鏈具有防篡改、可追溯的特點,保證了公開數據的真實可信;
利用區塊鏈技術防止知識和所有權造假,基于區塊鏈防篡改的特性,避免未經共識的知識上鏈或任意一方對已上鏈的數據進行隨意篡改,也對偽造所有權的行為提供完整的證據鏈;
利用區塊鏈技術進行知識確權,可利用區塊鏈上交易不可抵賴性特點,對知識聯邦業務中產生的交易或數據進行簽名,從而保證了知識確權;
利用區塊鏈技術解決過程追溯問題,可利用區塊鏈上交易可追溯特點,對知識聯邦中知識的構建、發展、使用等場景進行全過程追溯;
利用區塊鏈技術進行身份認證,可以基于分布式身份的特性,對知識聯邦中涉及的人、機構、設備等實體進行身份標識和身份驗證,保證參與實體的身份真實可信;
利用區塊鏈技術解決多方協同問題,在分布式賬本保證知識數據實時同步的基礎上,基于智能合約進行知識聯邦中各參與方的流程響應及協同過程的記錄和貢獻的確權貢獻的確權。

2.3 開放知識圖譜與區塊鏈
相比起企業內部的多部門協同知識圖譜構建,開放領域知識的構建更加體現群體、社區等社會屬性。同樣的,開放知識圖譜的構建過程,也是一個由知識貢獻、知識組織方式、知識使用組成的迭代過程。因此,構建開放的知識圖譜也需要一個可信的協同框架,能夠給出解決方案并支持持續的迭代和發展:開放的知識貢獻方式、開放的分布式知識組織結構、開放的知識管理和使用模型。相較于單一企業內部知識圖譜眾包解決方案,這個開放的協同框架需要解決更多參與方的相關問題:

識別更多的個體角色、避免開放知識寡頭化:識別相同實體以不同角色參與協同的工作,明確不同角色對開放知識網絡的貢獻;進一步的,開放知識貢獻者數據自主管理,避免數據集中導致的未經授權的濫用;
支持更分散的信任源、更可控的資質反饋和校準:針對不同領域的領域專家的資質認定,細化粒度,已快速達成龐大開放知識網絡中的局部一致性;進一步的,通過專家貢獻的評審和反饋,調整資質認定的等級,反過來校準更多源、更細粒度的量化評估方案;
量化眾多參與者的貢獻、追蹤開放知識的價值并根據反饋調整知識價值模型的能力:開放的框架需要實際參與人的貢獻,需要貢獻的量化和評估工具,對于貢獻的量化也體系出知識的價值;進一步的,根據開放知識在使用中的價值變化,也可以進一步修正量化模型。

區塊鏈與分布式賬本相關技術可以解決上述問題:多中心化區塊鏈網絡提供可信的基礎設施,全程跟蹤開放知識發展的過程并保證數據確權;去中介化身份體系支持多維信任源和分布式數據令牌的管理;區塊鏈的分布式通證方案從技術上支持知識點的資產化,體現了開放知識的價值和開放知識的分布式組織形式。利用分布式賬本技術,開放知識的產生、發展、推演都被記錄下來,開放知識的價值和相關性都可以進行分析,而開放知識的確權也可以完整的記錄下來,同時所有基于開放知識圖譜構建的應用都基于引用。利用基于區塊鏈技術構建開放知識圖譜,解決了開放知識價值的認定、開放知識貢獻的確權、開放知識傳播和開放知識關系的分布式組織方式。

三、OpenKG上鏈:鏈上的知識圖譜
3.1 OpenKG上鏈架構
OpenKG旨在構建以中文為基礎的開放域知識圖譜共享平臺,同時促進知識圖譜算法模型和工具的開源開放以及知識圖譜技術的普及應用。OpenKG旗下包括多個子項目和資源網站,如:

開放資源共享平臺OpenKG:  http://openkg.cn ,主要匯聚開放數據集及工具集等粗粒度的開放資源。
中文開放知識圖譜cnSchema:http://cnschema.org ,主要提供眾包實現的開放知識圖譜Schema。
中文開放知識圖譜眾包平臺OpenBase:http://openbase.openkg.cn ,主要定位于細粒度三元組級別的知識圖譜眾包平臺。

經過近一年努力,OpenKG完成了基礎區塊鏈平臺的搭建與測試工作,以及OpenKG數據集、工具集和Openbase細粒度知識的上鏈測試。目前,通過OpenKG發布的開放圖譜和開源工具,以及通過Openbase眾包采集的三元組,OpenKG都在鏈上進行存證記錄操作,并計算和分配產生的榮譽值。需要特別說明的是:考慮到性能的約束及必要性,目前僅實施了對知識圖譜的操作(上傳、審核、編輯、搜索、下載、查詢等)的上鏈,知識圖譜數據本身并未進行上鏈存儲。

在這個測試平臺中,已經包含超過1033位確權的知識貢獻者,上鏈測試的兩個月日均價值點亮峰值達10691次,總計點亮和鏈上存證次數超過55萬次,并首次測試實現了實體/三元組粒度的知識確權。

OpenKG區塊鏈網絡初始節點目前暫定為七個,交付給不同的大學或企業機構來運營,這個七個節點相互獨立,構成多中心的OpenKG區塊鏈基礎架構,通過共識機制同步OpenKG分布式賬本,共同提供分布式的可信基礎設施。未來根據需要逐步擴增更多的核心節點。

后續章節將詳細介紹OpenKG上鏈的具體實踐過程及成果。

圖5. OpenKG整體上鏈架構

圖6. OpenKG 5月點亮次數統計

3.2 開放知識的價值模型
OpenKG上鏈所需要解決的第一個問題即:知識的價值度量。由于知識圖譜的特點,在對知識圖譜的價值進行度量計算時需要具體到三元組級別,因此我們需要設計細粒度的知識價值度量模型。其次,由于OpenKG采用社區眾包的形式匯聚知識,我們還需要設計合理的榮譽度量模型對知識貢獻者的貢獻價值進行度量。

OpenKG基于知識的價值模型進行初始的價值模型設置,知識的單位使用的價值根據知識使用(知識受眾和相關知識點的迭代使用)進行評估,進一步將評估的結果作為知識貢獻者進行貢獻計量的計算依據。

3.2.1 K-Point:知識價值度量
OpenKG設計了K-Point (Knowledge Point) 合約以體現知識價值。OpenKG對于知識價值的評估基于簡單模型,如:每次知識被使用即為知識追加Knowledge Point。隨著知識使用場景的增多,OpenKG會持續使用一些可學習的算法,針對不同領域的知識點價值評估模型進行校準和優化調整;

在實際應用過程中,對于知識價值預期和知識使用預期需要進行持續的校準。在起始情況,使用簡單卡方分布進行擬合,并且使用簡單模型進行擬合。

            
知識每次使用,對應知識單價會對知識點進行加權。

3.2.2 OpenKG Token:榮譽值度量
OpenKG設計了OpenKG-Token合約,從知識貢獻價值衡量的角度,頒發給知識點貢獻者(發布者、審閱者、修改者),作為憑證。OpenKG-Token根據根據知識使用時的知識價值度量,按照知識貢獻進行分配,代表知識貢獻者的權益。起始情況下,價值會均分給知識貢獻者,
 

3.3. OpenKG區塊鏈的技術實現


圖7. OpenKG上鏈模型

3.3.1 OpenKG上鏈基本技術架構
OpenKG.CN是OpenKG開放資源共享平臺,用戶可以在該平臺自由地貢獻和下載各種類別的資源,因為平臺上的各種資源組織形式差異較大,所以基本的數據單元定義為一條資源(一個指向真實數據的鏈接或一個包含具體數據的文件),而不是一個三元組。OpenKG.CN平臺目前支持三種區塊鏈操作,分別是:用戶注冊、資源注冊和資源下載。
 
圖8. 上鏈基本技術架構

在可信基礎設施層面,OpenKG區塊鏈采用VBFT共識算法,在傳統BFT算法的基礎上,引入"VRF(可驗證隨機函數)",提高了共識算法的抗攻擊能力的同時,提升了共識速度;本體網絡采用WasmJIT技術作為智能合約執行環境,目前執行效率在業界是較高的;本體網絡提供了分片和Layer2的技術,為兼顧鏈上業務性能和區塊鏈網絡擴容方案。

在聯邦知識圖譜和業務應用層面,以分布式(去中介化)身份標識協議 (ONT ID) 識別知識點、知識關系、知識貢獻者和知識使用者,以分布式資源交互框架 (DDXF) 管理和追蹤知識發展和實用全過程,以跨系統互操作協議支持知識在不同系統中的業務服務。

其中,關于賬戶與數據標識,OpenKG區塊鏈使用非對稱密碼學算法來作為區塊鏈賬本數據和所有者之間物權關系的證明。OpenKG支持用戶私鑰的代理托管服務,保證用戶的互聯網用戶體驗。對于個人隱私有訴求的用戶,也可以方便的使用自己的公私鑰對取回個人的知識貢獻并確權。ONT ID將被用作OpenKG知識生成、使用場景的各類系統和區塊鏈節點中的分布式身份標識。基于ONT ID可以為標識指代實體簽發可驗證憑證,可驗證憑證支持多維認證,可以接入不同的身份信任源。分布式身份標識、多維度的可驗證憑證,為知識的不同使用場景提供了可信的賬戶體系和風控模型。

通過OpenKG的分布式數字身份體系,支持用戶個人數據貢獻的鏈上資質認定、確權和實際使用的邏輯。任意知識使用場景可以自主開發應用平臺,通過分布式身份標識的可驗證憑證對用戶資質進行校驗,方便知識貢獻并為知識使用者提供知識服務。

進一步的,OpengKG將知識數據的權限令牌和鏈上標識的數據data-token結合起來,在使用區塊鏈防篡改、可追溯、去中介確權等特性的基礎上,仍然支持中心化的知識服務提供,滿足知識使用場景的高效率需求。

圖9. OpenKG的數據權限管理模型
 
3.3.2 OpenKG中的知識確權
OpenKG的聯邦式知識圖譜構造和使用過程中,涉及知識所有、整理、加工、查看、使用等多種權限。結合開放性知識圖譜中不同知識數據的粒度,如數據集、實例、Triple三元組等,需要支持對應不同粒度知識的確權。OpenKG區塊鏈使用分布式身份和token方案為多個知識系統提供跨系統協同的賬戶、數據和權限管理。

首先,OpenKG 數據持有ONT ID,不同系統中數據的標識,因此支持跨系統知識的標識識別。進一步的,針對不同的知識使用場景,知識所有者、貢獻者可以主動創建知識權限令牌,并且整個授權過程上鏈,因此令牌使用過程中,確權安全可信。

同時,OpenKG 用戶持有ONT ID,可以在不同系統不同知識使用場景中識別同一用戶,并且可以跨系統追溯到知識貢獻者,保證使用過程的溯源。

如下圖所示,知識確權的具體實現細節具體體現在:

數據和用戶實體具有ONT ID;

針對不同知識使用場景,不同知識的增刪改查操作通過鏈外令牌管理;
每一個鏈外知識數據權限令牌對應一個鏈上數據Token,即:OpenKG的data-token;
使用鏈上data-token和ONT ID的物權關系進行跨系統的令牌確權;
通過鏈上data-token和鏈外系統令牌的綁定關系進行操作的鑒權,最終滿足可信的跨系統知識使用場景。

圖10. OpenKG的知識確權模型

3.3.3 OpenKG的知識溯源
OpenKG通過知識貢獻者的ONT ID管理知識ONT ID,支持OpenKG的知識應用場景中方便的創建使用令牌,進一步支持跨系統的使用確權。新知識綁定新的ONT ID,根據現有知識推導出的新知識的過程以區塊鏈交易的形式在鏈上記錄下來,并通過區塊鏈智能合約交易的形式自動構造ONT ID。所有知識的創建和加工過程都以鏈上交易的形式保留在鏈上,知識的標識在OpenKG的多個系統中保證,因此支持知識溯源。

圖11. 知識溯源過程
 
3.3.4 OpenKG的可信度量
OpenKG從三個層次提供可信度量:
基礎設施層面:OpenKG區塊鏈的網絡規模和節點分布程度為基礎可信提供背書;
知識質量層面:知識質量通過知識價值體現,知識價值通過知識的使用體現。OpenKG根據知識領域和知識使用行為分析獲得知識價值量化的方案,并在量化反饋的過程中持續迭代修正。知識使用的過程在鏈上有記錄,防篡改、可追溯,可以為數據的真實性和一致性提供信任背書;
知識貢獻者和使用者層面:由于所有的行為都在鏈上記錄并可追溯,貢獻者或使用者行為的分析和知識質量的結果可以作為貢獻者或使用者的可信背書。值得一提的是,區塊鏈并不能甄別作惡數據,但是系統外能夠提供作惡行為的證明并且永久有效,反過來影響貢獻者或使用者的貢獻度。

3.3.5 OpenKG區塊鏈啟動方案
OpenKG區塊鏈網絡初始節點目前暫定為七個,交付給不同實體運營。對于用戶來講,可以通過知識索引從不同的實體數據庫中查看知識對象。

OpenKG實現令牌token化合約,解決鏈外知識的數據實體識別和鏈外令牌鏈上確權的問題,鏈上對知識token使用的過程進行記錄保證操作過程完整性的同時保證可追溯。OpenKG支持知識貢獻者對于知識數據自主管理,支持知識的安全多方應用,在知識隱私保護的前提下,支持多方知識協作和使用。

OpenKG區塊鏈的啟動為OpenKG的知識場景提供可信支持,包括:
知識索引(資源同步);
知識使用(上鏈記錄、保證安全使用和安全交換等);
知識加工(新增、審計、修改、廢除);
知識溯源(根據聯盟鏈歷史索查每一個知識點的來源)。

3.4 OpenKG.CN上鏈實踐:開放數據集與工具集上鏈
3.4.1 OpenKG.CN簡介
OpenKG.CN是OpenKG開放資源共享平臺,用戶可以在該平臺自由地貢獻和下載各種類別的資源,因為平臺上的各種資源組織形式差異較大,所以基本的數據單元定義為一條資源(一個指向真實數據的鏈接或一個包含具體數據的文件)。OpenKG.CN平臺目前支持三種區塊鏈操作,分別是:用戶注冊、資源注冊和資源下載。在OpenKG.CN中,總共包含800余位確權用戶。

圖12. OpenKG主站OpenKG.CN:開放圖譜數據集及工具集

3.4.2 資源注冊與上鏈
1)用戶注冊上鏈:當使用者在OpenKG.CN注冊網站用戶時,系統同步完成用戶信息在區塊鏈服務器中的注冊,生成一個鏈上賬戶作為其他操作的主體,如圖13所示。

圖13. OpenKG.CN用戶上鏈

2)資源注冊上鏈:使用者在OpenKG.CN注冊用戶并通過審核后即可向平臺上傳資源,對于每一條資源,用戶上傳的同時系統也會自動根據用戶ID以及資源ID在區塊鏈服務器完成該條資源的注冊(此時并不會生成榮譽值),如圖14所示。


圖14. OpenKG.CN資源注冊上鏈

3.4.3 資源的價值點亮
1)資源下載點亮:當用戶上傳的資源被其他用戶下載使用時系統會根據資源ID生成相應的榮譽值并將其分配給資源上傳者的賬戶,如圖15所示。

圖15. OpenKG.CN資源下載點亮

3.5 OpenBase上鏈實踐:細粒度知識的上鏈
3.5.1 OpenBase簡介
為了解決細粒度的知識圖譜的眾包構建和查錯補全這類問題,OpenBase能夠同時兼顧知識圖譜的構建成本、速度的方法,由機器來幫助構建,并且由人來審核和修改。針對已有的知識圖譜,OpenBase為眾包人員構建一個統一的眾包平臺,實現知識圖譜的查錯審核等任務,如圖16所示。


圖16. OpenBase平臺流程

同時傳統的知識圖譜眾包平臺也無法完全解決用戶的互相信任性問題。受到區塊鏈思想的啟發,經過改造之后的OpenBase網頁端平臺嘗試解決這樣的問題。該系統是經過區塊鏈技術改造,以分布式賬本的思想,對細粒度的知識賦予價值,并且可回溯知識的操作過程。


圖17. OpenBase上鏈功能示意

OpenBase上鏈之后,如圖17所示,用戶的操作諸如數據審核、數據訪問(搜索、問答等)、數據下載等都會生成相關的榮譽值;用戶所有對數據的操作動作,也就是賬本信息,也會被記錄到區塊鏈上。

在本次的平臺中,將有新冠科研、新冠健康等數個知識圖譜的眾包過程將被記錄到區塊鏈中。每一個知識圖譜的貢獻者都會被記錄到鏈上。用戶在注冊的時候,OpenBase通過接口與鏈端進行關聯;登入OpenBase系統后,一系列的操作會被傳入到鏈端,但是訪問數據不會對訪問者獎勵榮譽值,只會對原來數據的貢獻者獎勵。

在數據審核驗收階段,榮譽值將會被復制分配為多份,均分給多個審核者、驗收者以及原來的貢獻人,但是數據所有者還是原來的貢獻人。與此做對比的是,數據編輯的接口中,當一個用戶修改編輯數據之后,將和原來的貢獻者一起都成為這條數據的所有者。

對于數據的訪問(搜索、問答等)將被視為一種點亮操作,該操作會產生榮譽值給數據集的貢獻者;對數據進行編輯時,編輯者將與原貢獻者均分對于數據的所有權;下載數據集同樣會產生榮譽值,分為給數據貢獻者;新增實體以及屬性的操作會被當作新的數據的注冊過程,操作者成為新數據的所有者。

在OpenBase中,總共包含約200位確權用戶。

3.5.2 細粒度知識上鏈
1)用戶注冊:當使用者在OpenBase注冊網站用戶時,系統會同步完成用戶信息在區塊鏈服務器中的注冊,生成一個鏈上的賬戶作為其他操作的主體。

2)數據編輯與新增:當使用者對數據進行編輯的時候,系統會同步完成數據信息在區塊鏈服務器中的更新;新增數據條目的時候,新增的知識會在區塊鏈服務器中進行注冊;如圖18所示。


圖18. OpenBase數據編輯與新增

3.5.3 細粒度的知識點亮
1)數據搜索與問答:當使用者對數據進行搜索與問答的時候,對應的知識會被點亮,同時生成一定數量的榮譽值。如圖19所示。

圖19. OpenBase數據搜索以及問答點亮

2)數據下載點亮:當使用者下載數據集,也會生成一定數量的榮譽值,用以獎勵數據貢獻者。如圖20所示。

圖20. OpenBase數據下載

3)數據審核驗收點亮:當用戶對數據進行審核驗收時,審核者、驗收者、貢獻者會被獎勵一定數量的榮譽值。如圖21所示。

圖21. OpenBase數據審核
 
四、總結與展望
知識是有價值的,知識之間建立關聯可以進一步增加知識的價值。知識圖譜的價值聯邦既包含知識的貢獻者,也包含知識的使用者。知識貢獻和知識使用的過程逐漸豐滿知識網絡,體現了知識圖譜的價值傳播模型。同時,知識在使用和傳播過程中,價值被不斷點亮,知識的價值被動態評估,知識的貢獻者得到合理的價值計算。這一過程對知識的確權、溯源、防篡改、鑒別虛假知識、對知識進行可信度量等多個方面都提出了新的要求。

OpenKG在這個方向上做了一些粗淺的嘗試,我們希望為各個企業或機構建立自己的企業級知識圖譜眾包平臺提供有價值的參考。在實踐過程中,我們發現區塊鏈盡管為解決前面所提出一些問題提供了新的思路,但并不能解決所有的問題,并且在實施知識圖譜上鏈過程中,依然面臨非常多的挑戰,如細粒度的知識確權所帶來的性能問題、大規模細粒度知識眾包的價值計算公平性問題、知識圖譜的去中心化存儲問題、知識眾包的合理激勵模型及可信度量模型等等,這些都還沒有較為成熟的解決方案。

此外,OpenKG目前還僅實現了數據集、工具集、三元組知識的初步上鏈,知識點亮的方式主要集中于下載和搜索。后續還將推動Schema、Bots、知識圖譜算法等方面的上鏈實踐工作,并探索智能問答、去中心化推理、聯邦知識學習等更為豐富知識點亮模式。

五、致謝
以下志愿者參與了OpenKG區塊鏈的實施及相關工作,他們包括來自浙江大學的楊帆、畢禎、葉宏彬、吳楊、余海陽、張寧豫;來自Onchain的李捷、楊少尉、榮怡、司帥帥、徐志強,來自小米科技的戴振、彭茜、劉作鵬等,以及尚藝秋、陳陽、李娟等提供的輔助支持工作。在此一并致以謝意。

聲明:文章收集于網絡,版權歸原作者所有,為傳播信息而發,如有侵權,請聯系小編刪除,謝謝!

歡迎加入本站公開興趣群
商業智能與數據分析群
興趣范圍包括:各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754

鮮花

握手

雷人

路過

雞蛋

相關閱讀

最新評論

熱門頻道

  • 大數據
  • 商業智能
  • 量化投資
  • 科學探索
  • 創業

熱門文章

     

    GMT+8, 2020-12-24 05:44 , Processed in 0.191101 second(s), 26 queries .

    (*^▽^*)MG黑暗故事游戏规则 股票风险评测等级 真钱娱乐老虎机 幸运快三大小单双预测网站 福彩七乐彩走势图首页 7m体育比分直播 澳门棋牌游戏排行榜 天天麻将外挂软件免费下载 足球比分网即时比分网 海通证券股票走势 竞咪21房卡_点进进入 168开奖网极速时时彩 大游bg视讯平台 澳洲幸运8开奖网 北京pk10官网下注 振华科技股票分析 真钱棋牌游戏排行榜dtv