
主講
大數據智能的研究與應用進展
非常感謝貴陽市組織的這次高峰論壇,這次峰會也感謝中關村大數據產業聯盟臨時接洽我這次到貴陽來,給大家做一個報告。我看在座的有很多做這個領域做的非常深的研究工作,還有實踐工作。今天的這個題目是“全域無線免費Wifi和塊數據下的產業創新發展”。“萬物互聯”就是Wifi跟物聯網是關聯在一起的,我的報告沒有針對Wifi對城市的感知做分析,而是在互聯網的大情況下它所產生的價值,主要是大數據的智能。
數據來源于我們現在看的是三元世界,三元空間。一個是網絡空間,一個是物理世界。人類社會交互和信息空間,物理世界通過無限的傳感穿戴式設備,通過人機,腦機的界面形成一個新的空間,DATANATN,數據界。數據的價值就是我們昨天到分論壇談論了很多,我們可以用數據做導航,可以用數據做預測,可以用數據做決策。我們把數據分成三個方面,各方面的應用分為三類,一個是對現狀的感知,一個叫未來預測,一個叫預測與調控。我們做大數據戰略分析的時候更多的是決策與調控方面的考慮。我就快速的跟大家講一講,對于感知性,包括我們對城市環境的檢測在微觀層面上對特定事件的檢測,包括對大量數據分析做一些科學的發展。預測未來的話,包括我們對城市交通,污染,以及對重大突發事件的預測,決策調控在我們知道未來可能發生的情況下,可能發生某種狀況的情況下,我們有什么辦法可以讓世界、讓狀態按照我們期望的方式發展。基于大數據的決策與調控這里面包括金融以及其他方面的應用。
關于數據方面,我們剛才講了更多的空間來源,主要從計算講有四個問題:一個是數據自身網絡化存在所導致的數據的特性;比如網絡化數據傳播的正發性和關聯的抑制性和多樣性,它的特性導致我們對這個數據的度量和計算存在困難,就是數據復雜性。由于在網絡空間里面存在結構和在線、離線的數據互相關聯,存在新的計算復雜性問題。在數據處理方面從感知到傳輸到存儲再到計算如何設計、系統結構和系統架構、我們叫系統復雜化。我們最后把數據存起來干什么用,我們剛才說對現在的感知和對未來的決策調控,在數據里面發現規律!對數據進行預測,實際上就是學習和判定復雜性問題,尤其在網絡空間大數據,挑戰問題從數據成層面,判斷層面存在著思維復雜性。我們最終目的是從數據到知識,從知識到智慧型的決策,從數據如何形成智慧,這是我們今天的主題就是“數據智能”。大數據智能跟腦智能有什么區別?我們人做的事情只要讓機器會讀、會看、會聽、會寫、會說。大數據智能實際上能夠從大量的、散亂的、無規則的數據里面發現一些規律,發現一些現象,能夠預測做特定的狀況,特定的情況做調控。這里最大的區別就是涌現性,數據是涌現出來的。可能你一開始并不知道,我們舉一個簡單的例子:蟻群效應。蜜蜂群體行動所產生的群體智慧,個體看上去很單一,很弱小,但是群體有大智慧。而數據智能通過數據碰撞最后形成智慧的決策。大數據智能跟前者有相關性,獨特性,它的核心在于涌現性。大數據目標是希望通過對個體智能分析和判定能夠形成所謂群體智能的分析和計算。這叫大數據的智能,核心在大數據表達、度量和涌現方面。我們講人肉搜索,群體智慧在這方面的眾包方式都是體現大數據智能的計算方式。人,可以是一個單元,一個小的方面就是大數據的一步。最后叫群體智慧;如何實現群體智慧,如何實現大數據智能。要解決三個問題:第一個,我們剛才提到的大數據里面的復雜性叫“數據復雜性”,“系統復雜性”;我們要解決這三個復雜性,在大數據雜亂無章的里面盡量解決度量,解決群體抑制大數據,規模大的時候,就是一種新的解決方法,復雜性要解決如何涌現的數據。關于大數據的精簡表達與度量,抑制數據,網絡傳感數據,數據的分布抑制,結構復雜,還有表達的尺度是多樣的,大數據在網絡空間大數據所存在的特點,這就是“挑戰性”問題。要解決這個“挑戰性”問題就是在傳統數據表達方面有很多工作,復雜性理論,數據度量,以及尺度如何計算,是我們面臨比較難的問題。這里面從統計角度,從結構的角度,從抽象的角度表達。
第二個在大數據復雜計算性方面,傳統的算法主要是解決函數的問題。我們希望在變量和參量之間要求它的模型:一個函數,或者一個計算的方法。我們認為一個方法,一個問題可解,是一個多項式就是可解的。在數據規模小的時候我們更多尋求算法的問題,在數據規模大的時候,在數據似乎無邊界的數據,無窮大的時候,那個時候我們線性復雜的問題都無法用傳統的模型求解。這種情況下要從數據上做文章。我們最近幾年在做973的時候,在做從數據的角度提高數據計算,降低數據計算復雜性問題。傳統的更多的是從方向性方面,多項算法解決這個問題。在大數據情況下,這個數據規模非常巨大,要從三個層面去解決:第一就是簡約計算,一個大的空間是一個全量數據。我們真正計算的時候希望能找到核數據,隨著數據規模變大的時候,它是相對穩定的,這樣就可以找到計算方法;第二叫分步式計算,我們用把數據做“化整為零”這樣的方式實現計算的簡約,它要解決數據橫向的問題,怎么把數據結構做組合,一個簡單的矩類問題做切割之后結果并不是一致的。算法模型上如何一致性問題就是我們要解決的問題;第三就是增量式計算,大數據很多,我們怎么樣在全量依賴的基礎上解決這個增量計算。
第三個挑戰是大數據涌現挑戰。數據的涌現激勵是什么,數據架構怎么支撐以及涌現的過程是不是可度量、可重現。從技能模式有很多傳統的方法,包括商業職能以及相關的工作。我們現在解決了三個方面就是涌現度量、交互的個體和群體,形成它的相變點求解的問題。我們提的方法通過預測模型構建一個環路。我們前面講的大數據,智能的問題,數據的表達,計算和涌現機制的發現。我們其實在這幾年我們也在這方面做的研究工作。
下面我舉一個具體的例子:第一關于數據表達方面的。我們講文本數據表達方面,我們在一個大的網絡里面短信、微信、評論和論壇等各種數據,其實是大的種類是短文本數據。短文本數據往往信息比較確實,往往是口語話的語言,相互距離長的問題。由于大規模系數導致計算的復雜性加大,我們提出一個辦法:不去計算這個詞的出現,而去找這種表達特征之間的共性關系。原來是按“點”做計算,我們現在按“邊”做計算,通過按“邊”我們發現這個精準度提高20%左右。短文本對短信比如對我們微信,或者微博數據做分析的時候它的精度可以得到大規模提升。第二就是關系度量,就是人的影響力的問題。對人的影響度量,一個人B的影響對C的影響,傳統的辦法是要對每個用戶之間的人極影響,這個結果是非常大的。如果11個人都在社交網絡里面進行交互,我們把每個人的影響力算出來,最后求綜合影響力,這個計算復雜性非常高。這一個人對每個人的影響力的時候,只是看其他人對他有什么可接受性,我們叫每個用戶的影響力,我們現在只需要算每個點之間對特定用戶的影響是什么樣子的。 如果求兩兩影響現在提高了很多倍,這是一方面。另外一個是舉一個關系網絡里面的數據。如果我們求兩個人,這兩個人是不是興趣相似、這兩個人是不是關系親密、或者找兩個網頁之間是不是相關。谷歌里面講是不是內容相關,這是一種辦法,還有這兩個互相有連接,這兩個有連接他們有相關。如果找兩個人是不是很相關,往往在這兩個人是不是很相似,他們是不是都很關心大數據,是不是都很關心古典音樂或者某一個明星。另外看他們兩個人有沒有互動,有沒有互粉、互相評價,如果互相評價就是有相關。這兩個網頁是不是像剛才說的是兩個緯度,第一是他們興趣是不是相關,第二他們是不是有產生交互,關系。這兩個緯度視角的東西,在一個空間里面到底誰重要,誰不重要,如何讓這兩個緯度的東西最后在一個度量里面。什么意思呢,我們原來的搜索里面把不同緯度的東西放在一個模型里面做參數學習。我們提出一個新的辦法,就是把數據相關、內容相關放在一個空間里面進行度量,內容相關跟連接相關很難在一個物理的空間,我們這里的極坐標空間可以用一個空間進行度量,這個度量很有意思,有一套理論。可以把研究工作大量引入我們度量方法。
還有在計算方面我們的研究工作。一個在排序方面,我們知道無論信息檢索,還是產品推薦,還是用戶推薦方面,它是確定數據問題的,你查詢某個關鍵字是什么,是否匹配的問題。我們要找到最前面相關的問題,現有的問題是你把最后的結果統一排序叫全量排序,這個數據量非常大。數據檢索的時候能夠搜到一千或者一萬個結果的時候,往往用戶只看前面100個,如果只對前面100做排序可以大大減少計算復雜度,同時標注復雜性。用局部的結論求解全局的結果。從平方降到線性復雜度。最后影響最大化,我們講在信息傳播或者產品推薦,我們在大規模的社交網絡里面,你能不能用最短的時間,最小代價把你的信息最大規模擴散出去?我們現在找中央的媒體往外擴散,可是我們知道這個有偏向性,中央媒體會使民眾的產生逆反心理。最有影響力的是誰?可能是國家主席。不見得他們講的話是老百姓最愛聽的。有時候草根的力量是非常大的。我們在一個復雜關聯的社交里面不僅僅要找到大微的問題,要找到有效的結點,找到最小的覆蓋,能夠把你的影響最大擴散出去,我們叫影響力量一最大化。影響力最大化實際上用現在的傳統的做法來講,它是一個組合優化的問題。我們知道組合優化問題如果精確求解基本不現實,你在一個社交網絡里面有一個用戶,你在最短的時間內把你的產品擴散到所有群體里面,精確求解是無法求解的,我們通過這個算法可以用時間證明,用快一千倍的辦法盡快把我們的消息擴散的東西擴散出去。
另外還有群體智能,群體形成智慧的判定。關于功勞的分配問題,我們知道最后的效益的分配,功勞分配這是最基本的問題。比如公司股權的分配,在團隊合作里面工作績效的考核,因為大家是一個合作關系,到底誰的貢獻大。往往我們傳統的分配方法就是比比誰的貢獻大,還有一種方式方法權威,比如或多或少往往是我們找一個評委會評。這些的話,所有的評我們要找到權威來評或者找一個領導來評,這些權威是公正的,這些權威的信息是客觀科學合理的。我們知道每個人、每個權威都是有一個片面性跟局部性,我們如何用更客觀的辦法對所謂的權益和權力進行分配。這是社會基本問題,這個基本問題我們做研究的人寫文章,我們寫文章的時候,看誰的文章貢獻最大,我們放在具體的案子下面看:比如諾貝爾獎,我們知道諾貝爾獎,我們現在知道一個文章有上千個作者,如果這篇文章出來影響力非常大的時候,到底誰的貢獻大。這個文章獲得諾貝爾獎,不是一千個人都拿,那到底誰拿,比如愛因斯坦他一年寫5篇文章,5篇文章都可以拿諾貝爾獎,那就是他一個人拿這個獎。現在第一作者真的重要嗎?最后一個才是思想理論者,我們給的所謂群體判定方法,就是說A層面上這篇文章兩個作者,這個文章獲得諾貝爾獎,這個文章被其他人關注和引用,我們用被引用強度判斷每個作者的功勞比例。這是2014年的7月份這個發布的方法,這個對100年諾貝爾化學獎,物理獎,經濟學獎判斷率是86%,這個紅的是我們判定正確的作者,每個圈表示一個作者,每一篇文章是底下具體的文章。有時第一個作者獲獎,有時候最后一個作者獲獎,有時候中間作者獲獎。專家評判有專家自己的專業知識也有他的誤差,我們做這個評判的時候完全根據它的方法。根據作者自身在寫作影響力的評價。我們準確率86%,傳統的預測準確率在30%,我們極大的提高了這個判斷力。也是通過群體的作用進行決策和判定的問題,另外還有流行度,流行度也是一種在大規模網絡上的相互關系,通過一些有效的辦法,直接建模關注度來解決。我們對微博,對論壇,哪一篇文章十年內被引用得最多,這個準確率也是86%。我們剛才說的是用網絡化的數據,然后做預測的問題,做數據的度量問題,做一些計算比如排序,推薦,去做這樣方法的優化,大規模的算法的優化問題。我們形成相關的系統,比如大數據的平臺系統和對數據的存儲管理,尤其這類的關系數據。最后我們還有一個我們自己提供的一套大數據的分析引擎。你可以在分布式存儲情況下,提供自適應的框架,這一點對結構化進行有效的處理和分析,這是互聯網網絡方面大數據檢測的應用,包括多源頭的信息,這是大量群體,數據的關系。這是我們自己構建大規模的知識平臺,叫大規模知識網平臺。
我們認為網絡也罷,大數據也罷存在三個科技問題,我們今天講的數據智能里面一個是數據復雜性,計算復雜性和系統復雜性,系統復雜性體現在涌現復雜性,計算復雜性體現在計算模式,變換尺度變換空間去度量。大數據智能更多是涌現復雜,最后應用到系統方面,包括交通,環境,醫療,金融,醫療里面群體的醫療診斷問題,實際上最后我們形成相關的系統,包括數據的存儲,數據分布式計算和分析和開放式的計算網絡。我的報告就到這里,謝謝大家。