
主講
中國數據加工清洗產業發展趨勢分析
各位來賓,大家下午好。非常榮幸能有這樣一個機會和大家一起交流關于數據加工清洗產業的一些認識。這兩天大家去參加大數據博覽會,會看到貴陽市提出的口號,叫數據創造價值。數據是一種資源,它擺在那里、沉睡在那里或者它是一座孤島的時候,它是很難創造價值的。恩格斯曾說過勞動創造世界,勞動創造價值。這些數據,只有通過勞動、處理、加工、process,才能夠真正產生出它的價值,這也是貴陽市提出數據商品化論壇的一個初衷。貴陽市在大數據產業發展中,優先在數據中心、呼叫中心、全程免費wifi、數據源的采集和重組方面有一些很好的基礎。在下游、在數據的交易,貴陽市建立了大數據交易所,但是大家有沒有發現它缺少一個中間環節,就是對數據的清洗和加工。貴陽市的領導非常有戰略的敏感性、戰略的意識,所以在這個時候提出來要在貴陽市大力發展數據加工與清洗產業。今天借這個機會,我把賽智咨詢在數據加工清洗產業方面研究的一些成果和大家分享一下。
數據加工清洗是怎樣的一個過程?怎么去定義這個過程?其實類比于在工業化時代的機械的加工,或者礦產的加工,它有一個過程,包括礦產的采集、采礦,也有洗礦的過程,冶煉和加工的過程,包裝的過程,產品化的過程,最終到商品化的過程。其實數據加工的過程、清洗的過程也是這樣一個過程。從各個渠道采集來的各種各樣的數據有一個采集的方式,在采集數據之后需要把這些數據存儲下來,在用之前需要對這些數據做清洗,因為數據的質量、數據的標準不統一,數據的質量很差,需要做數據的清洗,在這個基礎上要做數據的粗加工、深加工、精加工。有些數據涉及到安全、隱私,要進行數據的脫敏,在數據展現給用戶的時候,需要對數據做一些可視化的處理、數據的包裝,最終形成一個數據的產品,才能夠真正在交易場上進行交易,這是它的一個過程,也是我們對數據加工清洗產業的一個定義。這是覆蓋了采集、清洗、加工、脫敏、包裝這個產業鏈條上各個環節的這些企業上下游共同構成了一個新的產業形態,叫做數據加工清洗產業。
數據加工清洗產業應該說很早就存在,信息化一開始做的就是信息的采集、信息的處理。今天我要跟大家分享的是在大數據時代,在今天這樣一個面對著海量的、復雜的、多變的數據的形態下,整個數據加工清洗產業的發展趨勢是什么?大概總結了十點:
第一,數據加工對象將呈現多樣化、復雜化。這是一個非常明顯的趨勢。過去我們可能數據加工只需要基于數據庫中的數據做數據的查詢、重組、檢索、處理,再復雜一點,把不同系統中的數據通過數據倉庫進行相關的工作,就是抽取、轉化、裝載這樣的工作,做這樣的結構化數據的加工。但今天面對的是80%的數據是非結構化數據。什么叫非結構化數據?就是那些不是簡單地可以用一個二維表結構所表達的數據,這類數據類型占整個數據類型的80%,對這類數據的處理就會產生不同的數據加工、處理的方式。比如對網絡日志數據處理的方式、相關的加工處理的方法和工具,對于視頻數據、圖象數據、音頻數據、各種傳感器采集來的數據,對不同的數據處理加工的方式也是不同的,就帶來了不同加工類型的加工的工種、加工的產品和企業。在這80%的復雜數據中,每一種類型的數據的加工都可能產生一個市值上百億的企業。比如語音加工的科大——訊飛、文檔數據加工的托爾斯、視頻數據加工的相關產業、空間數據加工的相關產業。大家都知道美國有一個上市公司叫splark,splark最擅長處理的就是網絡日志數據,它是一個市值上百億美金的企業。對每一類型的數據加工都可能產生出一個新的產業形態,我下面會具體分享一下。有很多沉睡的紙質的數據,如果真正做大數據分析,那些歷史的數據難道不需要去考慮嗎?所以這里面也會有數據加工類型的企業,它們做的是紙質文件的數字化加工。比如做文件掃描、圖象識別、文件校對,這里也誕生著一個在目前中國的數據加工市場將近一百億的市場規模。它誕生了像航星永志、東方飛揚這樣的一些企業,它們專門就是處理紙質文件的數字化加工。這是一部分的產業形態,后面航星永志的郝總會跟大家交流,這方面我就不詳細介紹。對文本、語料的數據加工、挖掘和輿情的分析,這也是一個大約90億的市場規模,這里要做文本語料的采集、文本語料的深加工、專業辭典的建設、自然語言的處理,這里面用到的核心技術是一些像分子技術等等這樣的技術,它也誕生了很多上市公司,像托爾斯很擅長的一個領域就是在這個方面。海量數據、中科點擊等這些上市公司,包括方正集團,它們所擅長的就是對文字文本信息怎么做到自然語言的理解,怎么把它分析得更加準確。對語音數據的加工這個產業,就目前的市場規模來看,每年大概有40、50億的規模,包括語音數據的采集、語音的識別、語音的合成。像蘋果、IBM、百度專注于對語音這一類數據的加工、分析和處理。同樣,圖象的視頻數據加工,也是一個幾十億市值的規模,處理的包括圖象的采集、標注、分析和圖象的預處理,這里有跟圖象相關的處理產業,包括加工、處理、分析、應用。比如迅雷,當然它更多的是視頻,當然在圖象處理方面也是它的一個專長。在空間地理信息加工方面,這個產值更大,每年的市場規模更大,將近一千個億的市場規模。里面有刪格數據、刪格圖象和影像數據——放大以后不清晰的數據的處理,包括矢量數據的加工處理、空間數據的預處理、地圖的整飾、專業地圖制作等等形成一個產業形態,國內外很多專注于空間數據處理的企業,也是一個個上市公司所形成的市場規模。所以,數據加工的類型和對象越來越復雜。
第二,數據加工的自動化水平將不斷提升。過去傳統數據信息化的處理、結構化的處理,從不同孤立的信息系統中,對數據進行相關的整合,數據的采集、清洗和加工,在數據倉庫里做數據的清洗、整合,整合了不同的業務系統中相關的、獨立的數據庫,這是一個傳統的數據加工的自動化的能力。這需要技術水平的支撐、建模的工具、展現的工具,不同類型的企業在這里提供工具,這是傳統的,不多講。在大數據時代,自動化水平一樣要有非常高的能力,所以歷總說這個論壇跟他不相關,我恰恰說非常相關,為什么?你就是給數據加工清洗產業和數據商品化提供生產設備的,怎么能不相關呢。在大數據時代,非結構化數據的整個數據生產的技術和設備達到了另一個層次和水平,也就是剛才鮮總所說的,大數據帶來的是IT產業本身的結構重組和調整升級,IT如果跟不上大數據時代的變化,可能會被淘汰。就像今天IOE面對BAT時候的尷尬一樣,如果跟不上這種變化可能就會被淘汰。非結構化數據加工、自動化系統中,我們可以看到,有對P處理的,有對內存計算的,也有非結構化數據的,也有實時數據的,不同類型的數據有不同的手段和處理方法。ETL只是結構化的一部分,抽取過來,更多是基于非結構化的文件系統和處理系統,還有非結構的分析系統和重組系統,構成了未來在大時代的整個自動化能力。
第三,數據加工清洗將逐步形成流水線生產數據加工清洗將逐步形成流水線生產。從數據的采集,不同智能終端、不同渠道采集的數據做數據清洗,去掉不完整、錯誤、冗余的數據,做數據的精加工、重組,離線、在線的備份,做數據的分析、可視化,形成一個流水線生產。大家看一個例子,阿里巴巴的數據加工的流水線,是通過這個流水線完成的,看到不同終端的數據被采集過來,這里面有前端服務器的處理,數據通過傳輸到分發中心進行分發,再到加工車間進行加工,提供了強大的服務器處理數據,通過不同的算法進行分析、挖掘,做數據的建模,根據業務相結合的業務建模,再形成數據的產品,提供給消費者,在這個產品上需要跟業務之間形成互通,形成一個數據交換的平臺。在整個阿里巴巴,如馬云所說,從IT到DT技術,已經形成了DT技術中一整套的流水線生產,所以整個數據加工呈現出來是流水線的生產趨勢。
第四,數據加工將兼具勞動密集型和技術密集型。它需要大量的員工,解決大量的就業,光有技術是不足以解決所有問題的,不足以實現對這些數據準確的、清晰的加工和分析,形成數據的產品,而需要更多的數據采集工人、數據清洗工人、數據分析師和數據可視化工程師來協助技術系統完成這個工作。隨著數據越來越標準化、越來越多,勞動員工的需求量會下降,自動化水平會提升,但現階段需要更多人員參與。比如高德北京昌平數據生產基地,員工有1500人,占整個高德2800員工的50%以上,這些員工有500名是外業采集數據的,有1000名為內業員工負責地圖繪制、校正地圖信息,技術和人員形成相互配套的生產模式。在未來,像阿里巴巴這樣的公司,包括很多數據云平臺的服務商需要數據加工和清洗的工人。所以,數據加工具備勞動密集型的特點。
第五,數據加工將呈現社會化眾籌和眾包模式。這是在云計算的平臺之外它所體現的一個社會化的特點。需要利用社會力量進行數據的采集,如果我是一家云計算加工的企業,需要河南話的語音數據,需要河南當地人把這個語音采下來,然后傳上來,給我一個交易,給他五塊錢,河南的語音傳給我,這個語料庫中就多了河南話的語音語料,就形成了數據眾采的模式。數據任務眾包,不同的人幫我做處理。美國一家企業做這樣的服務模式,數據任務眾包,包括網絡的數據眾爬、社會化數據分析眾包。有不同的數據分析師,專業不一樣,利用不同人的特長。比如統計局的人擅長這一塊,讓他來做這一塊。互聯網公司的人擅長電商,由他做那塊,形成一個眾包模式,在平臺的基礎上形成社會化的眾籌和眾包的發展方式。
第六,數據深加工將呈現專業化細分。有不同類型的數據,要細分到不同領域,不同領域細分到不同行業,這是一個大的產業形態,不是一家能夠獨自完成的。我將來可能做政府檔案數據加工的一個產業形態,也可能做電信數據的語音識別這一個產業形態,這里面會有很多細分的領域,形成非常大的產業的集群的形態。大家可能會擔心,在大數據時代,是不是只有BET去玩了,在平臺基礎上有眾籌眾包、各種專業化的細分所形成的產業發展的形態。
第七,市場競爭將呈現平臺馬太效應。將來的技術、設備、生產線都會集中到云上去,而這個云可能是目前產業鏈上下的環節去實現的一個云化。比如互聯網公司做云,這些交易所,貴陽的大學交易所也想后延伸做云服務,包括設備商,比如浪潮也在講云,華為也在講云,設備商也在往前提升,想提供這個平臺,最終平臺的提供商是呈現強者更強的,會整合更多的資源,在它的基礎上更多的還是社會化、專業化的細分,形成產業生態環境。
第八,數據安全處理既是數據加工的組成也是數據加工發展的保障。就數據加工這件事,既是數據加工的組成部分、一個基礎,是細分領域,同時這個數據安全,又是我們數據加工產業能不能快速發展的保障。所以這個過程中,也有很多工作要做,數據的備份、加密,數據的銷毀、恢復,也是一個很多的產業形態。這兩天論壇里專門用數據安全來解決數據發展的問題。
第九,數據分析將成為數據加工的高附加值環節。整個加工產業有一個曲線的高附加值來自數據分析,就是富含著對業務的理解、數據模型和數據能力,這種企業的競爭力非常強。
第十,數據可視化將大力提升數據產品的體驗。因為最終數據的東西要表現出來,要通過可視化來展現形象。數據可視化將大大提升整個數據產品的體驗,各種各樣的數據的展現能力。而且通過數據可視化,對數據內部的規律有更深層次的發現和探索,后面由海云做專業可視化介紹。
總之,在這樣的趨勢下,大家看到,數據加工清洗產業帶我們進入什么時代?一個大數據的工業化時代,帶來數據的標準化、數據的增值、數據交易能力的形成,這是一個基礎。所以貴陽市提出要大力發展數據加工信息產業,這是非常正確的決策。
建議:第一,加強數據源和數據礦產的建設。第二,要專業化深耕數據加工的細分領域。第三,大力提升數據加工清洗的自動化和自主可控水平。第四,構建數據權聲明周期的產業生態環境,提升數據驚異制作和外包能力,加強數據分析的增值能力,提升數據營銷和交易能力打造出世界級數加工清洗的龍頭企業。這是我今天分享的內容,謝謝各位。