《影響中國大數據產業(yè)進程100人》第85期 黃暉:創(chuàng)新引領國內大數據分析挖掘發(fā)展
發(fā)布日期:2017-02-042016年3月,由中國首席數據官聯盟發(fā)起,北京大學信息化與信息管理研究中心、中國新一代IT產業(yè)推進聯盟協辦的“影響中國大數據產業(yè)進程100人”大型人物專訪活動全面啟動,被采訪對象分別來自政府、產、學、研、企各個領域,他們將從不同角度,不同層面向大家闡述當前大數據產業(yè)熱點、難點、疑點問題,為中國大數據產業(yè)健康、持續(xù)發(fā)展探索經驗、保駕護航!
黃暉,首席數據官聯盟專家組成員,上海天律信息技術有限公司CEO。美國北卡羅來納大學信息社會學博士、上海市信息學會會長、上海市領軍人才、國務院特殊津貼專家。長期從事大數據分析挖掘和機器學習算法研究,帶領團隊成功開發(fā)出中國第一套大數據分析挖掘軟件“馬克威分析系統(tǒng)”和“馬克威云挖掘軟件”。曾任美國MBNA銀行數據挖掘顧問、美國FirstUSA銀行數據挖掘咨詢顧問、美國醫(yī)學科學院數據挖掘咨詢顧問等,在北美的信息社會學以及數據挖掘領域擁有超過十年的工程和管理經驗。
首席數據官聯盟:作為大數據分析挖掘資深專家,近些年數據分析挖掘技術發(fā)展及工具變遷是怎樣的?
數據分析挖掘技術的發(fā)展經歷了五個階段,最初的數據分析工具主要是針對關系型數據庫和文本格式的數據集。當多個數據庫出現以后,就有了數據倉庫(Data Warehouse)的產生以及針對數據倉庫挖掘分析的需求。當數據量達到TB和PB時,以Hadoop為代表的分布式數據存儲和云架構蜂擁而出,針對云端大數據的分析挖掘逐漸成為主流。然而,Hadoop架構在處理實時數據時出現不足,隨之出現了以SPARK為代表的分布式內存計算技術,解決了數據處理過程中實時性的問題。當前,流數據的處理和計算正收到歡迎,以STORM為代表的流式大數據處理技術受到越來越多人的關注??偠灾?,數據分析挖掘技術隨著數據量及數據形態(tài)的不斷變化而不斷進步。
就數據分析工具的演變和發(fā)展而言,大致可以分為三代:
1.數據找算法時代,即基于關系型數據庫的分析軟件:以SAS,SPSS和馬克威分析軟件為代表。
馬克威作為國產分析軟件,屬中國第一套完全自主知識產權的全中文統(tǒng)計分析和數據挖掘軟件。經中國統(tǒng)計學會認證,該軟件的算法是科學準確的,計算結果與國際同類成熟軟件的計算結果一致。
2.算法找數據時代,即分布式挖掘軟件:以馬克威運挖掘軟件、Mahout以及部分R程序為代表;
在分布式計算時代,馬克威已經超越了傳統(tǒng)分析軟件巨頭。競爭對手變?yōu)殚_源組織R和Mahout。傳統(tǒng)分析軟件由于不能針對分布式集群進行分析挖掘而正在淡出新一代分析師的視野。而R和Mahout僅有少量分布式算法,且作為開源組織,他們不保證計算結果的準確性,不提供技術支持和售后服務,需要用英文寫代碼進行操作。馬克威云挖掘軟件已包含近百種分布式算法,且數量仍在不斷增加,操作界面采用拖拽的方式建立工作流,不用寫代碼,中文界面便于操作,軟件內包括模型庫,可做到一次建模,多次利用,支持二次開發(fā)。
3.算法互聯網平臺化時代:以馬克威算法交易平臺為代表。
馬克威算法交易平臺(www.markwaymall.com)作為中國第一個大型數據分析算法和應用模型共享平臺于2016年12月16日正式上線。該平臺包含大量獨立封裝的數據分析和機器學習算法工具,適應各種運行環(huán)境,海納各種行業(yè)大數據應用模型,匯集全球開源算法和工具軟件,提供豐富全面的數據分析知識庫,為數據分析和人工智能開發(fā)提供一站式服務,助力中國智能化的發(fā)展以及企業(yè)決策科學化。
首席數據官聯盟:從數據分析到云挖掘再到算法交易平臺,天律公司過去15年間進行了三次產品飛躍,可謂與時俱進。請問當時這些新品推出背后,您的商業(yè)推斷和市場發(fā)現是什么?(換言之:您是如何做到的?)
在美國學習和工作期間,我曾參與多個數據分析挖掘項目,深刻體會到數據挖掘對于一個企業(yè),乃至一個國家的發(fā)展具有無法估量的作用。而當時的中國還沒有意識到數據挖掘的重要性,數據分析也僅停留在依賴國外軟件的階段,對于數據安全性及數據價值并沒有特別關注。2001年,我回國創(chuàng)業(yè),第一件事就是想填補中國數據分析行業(yè)的空白,打造一款純國產的數據分析工具。2003年,馬克威分析系統(tǒng)成功問世,當中國統(tǒng)計學會認證,該軟件的算法是科學準確的,計算結果與國際同類成熟軟件的計算結果一致時,我知道我的想法已經實現,馬克威分析軟件也在用戶的口碑相傳中不斷應用于各個政府部門、企業(yè)及高校。
隨著互聯網的發(fā)展,當阿里開始初露頭角時,我開始意識到下一波的數據分析技術將面臨大數據的挑戰(zhàn),同時這也是馬克威彎道超車,超越老牌數據分析軟件的大好機會。因此,當阿里委托我們?yōu)榘⒗镌骑w天云平臺開發(fā)一套分布式分析挖掘工具的時候,我們幾乎是一拍即合的。當馬克威云挖掘軟件研制成功時,我們在大數據時代已經占據技術領先地位。
作為一家高新技術企業(yè),技術的發(fā)展,產品的更新始終是我不斷思考的問題。當越來越多互聯網企業(yè)如雨后春筍般出現,當國家開始鼓勵大數據產業(yè)發(fā)展時,當算法時代,算法經濟,人工智能這些字眼越來越為人們所熟知時,我開始醞釀馬克威算法交易平臺的研制和發(fā)布問題。當資本追捧獨角獸企業(yè)的時候,我看到的是螞蟻的力量,既然算法是未來的發(fā)展方向,那么集大眾的智慧一定會使中國在算法革命的浪潮中立于不敗之地。為了打造一個匯集全球所有能公開獲得的算法庫和行業(yè)應用模型庫,為各行各業(yè)的分析人員提供一站式服務,我將數據分析和挖掘算法以及行業(yè)應用模型開發(fā)成獨立封裝、適應各種運行環(huán)境的產品放在互聯網上,以PGC的模式帶動UGC的效應,旨在助力中國智能化的發(fā)展。
首席數據官聯盟: 大數據最近幾年才深入人心,作為國內最早開發(fā)分析挖掘軟件的公司,在產品推廣應用中曾經遇到哪些挑戰(zhàn)和困難?后來是如何解決的?
的確,先行者和先烈者往往只有一步之遙。天律公司成立于2001年,當時國內市場對于數據分析挖掘的需求還沒有顯現,產品的應用范圍也不是那么廣泛。我們公司的發(fā)展只有一個秘訣,就是善于啃骨頭。當國家統(tǒng)計局遇到CPI難題,當2010年上海世博會遇到人流預測難題,當大型企業(yè)遇到決策分析難題找到我們時,我們都能用專業(yè)的知識,豐富的經驗以及過硬的技術超過預期的滿足客戶的需求,口碑就是最好的廣告。
在企業(yè)發(fā)展的過程中,我們也遇到過人才被挖走,市場推廣不力的問題。但最主要的問題還是思想理念的問題。企業(yè)的經營、政府的決策到底是以經驗為主還是用數據說話,模糊決策還是精準科學決策。可喜的是,國內越來越多的機構和單位都在走向科學決策和精準服務。
因此,數據分析和挖掘技術越來越被采納或受到關注。
首席數據官聯盟:目前公司主要服務哪些行業(yè)客戶?傳統(tǒng)的套裝軟件售賣模式逐漸不合時宜,在客戶拓展和服務方面有哪些新實踐?
我們的客戶分為三類,政府、企業(yè)以及高校,包括國家統(tǒng)計局、國家海關總署、國家商務部、阿里巴巴、天弘基金余額寶、寶武鋼鐵集團、中國海運集團、海南航空、中國電信、中國移動、華中科技大學、南京財經大學、中南大學等等。
作為一家專業(yè)化程度比較高的數據分析挖掘軟件公司,我們的核心競爭力在于我們自主研發(fā)的算法。我們的產品遠不止套裝軟件,我們的定位是算法時代數據智能的引擎。馬克威算法交易平臺的推出也預示著我們將來的市場不僅是垂直行業(yè),橫向領域崛起的數據交易所、各大云平臺以及看似同行的大數據應用企業(yè)都將成為我們的服務對象。