智與理的結(jié)合:當(dāng)數(shù)據(jù)治理遇上人工智能
近日,中國(guó)移動(dòng)研究院發(fā)布文章,解說了數(shù)據(jù)治理和人工智能兩者之間各自發(fā)展歷程,論證了兩者在結(jié)構(gòu)功能上的相互作用,闡明了兩者共同發(fā)展的前景。
Part 1
數(shù)據(jù)治理:大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)
近些年來,隨著大數(shù)據(jù)在各個(gè)行業(yè)領(lǐng)域應(yīng)用的不斷深入,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯,數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)確權(quán)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、隱私保護(hù)、數(shù)據(jù)流通管控、數(shù)據(jù)共享開放這些問題越來越受到國(guó)家、行業(yè)、企業(yè)各個(gè)層面的高度關(guān)注。更多的人開始意識(shí)到,大數(shù)據(jù)一方面給現(xiàn)有信息技術(shù)體系帶來了大挑戰(zhàn),需要更多的研發(fā)投入和創(chuàng)新;另一方面,也需要營(yíng)造更有利于大數(shù)據(jù)產(chǎn)業(yè)健康有序發(fā)展的良好環(huán)境,這樣一來,數(shù)據(jù)治理的概念就越來越多受到了關(guān)注,成為目前大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)。
在上世紀(jì)80年代,隨著數(shù)據(jù)隨機(jī)存儲(chǔ)和數(shù)據(jù)庫技術(shù)應(yīng)用,產(chǎn)業(yè)界首次提出了數(shù)據(jù)管理的概念,這就是數(shù)據(jù)治理最早的起源。2009年,國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA)發(fā)布了數(shù)據(jù)管理知識(shí)體系DMBOK1.0,提出DAMA數(shù)據(jù)管理理論框架模型,成為了目前行業(yè)最權(quán)威的數(shù)據(jù)管理理論模型,DAMA 數(shù)據(jù)管理模型包括10個(gè)活動(dòng)職能,分別是數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉庫和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理。2015年,DAMA 新發(fā)布的DBMOK2.0知識(shí)領(lǐng)域中又將該模型擴(kuò)展為11個(gè)活動(dòng)職能。在2012年,另一個(gè)行業(yè)組織數(shù)據(jù)管控協(xié)會(huì) (DGI,The Data Governance Institute)提出了DGI數(shù)據(jù)管控框架模型。2014年,軟件工程研究所(SEI)基于軟件能力成熟度集成模型(CMMI),提出數(shù)據(jù)能力成熟度模型(DMM)。2015年,一個(gè)主要面向金融保險(xiǎn)行業(yè)數(shù)據(jù)管理的公益性組織企業(yè)數(shù)據(jù)管理協(xié)會(huì)(EDM Council),提出數(shù)據(jù)管理能力評(píng)價(jià)模型(DCAM),另外還有像Gartner提出的企業(yè)信息能力成熟度模型(the EIM Maturity Model)、IBM企業(yè)數(shù)據(jù)管理能力成熟度模型以及一些咨詢公司如畢馬威、普華永道等發(fā)布的細(xì)分行業(yè)數(shù)據(jù)管理體系架構(gòu)等。、
在我國(guó),2015年,工信部電子技術(shù)標(biāo)準(zhǔn)化研究院制定《數(shù)據(jù)治理白皮書》國(guó)際標(biāo)準(zhǔn)研究報(bào)告。2017年,工信部信息通信研究院發(fā)布《數(shù)據(jù)資產(chǎn)管理白皮書》。2018年4月,國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)化工作組發(fā)布了國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評(píng)估模型GB/T 36073-2018》(簡(jiǎn)稱《DCMM模型》)。2018年5月,銀保監(jiān)會(huì)印發(fā)《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引的通知》。近年來,國(guó)內(nèi)各行業(yè)大型企業(yè)也紛紛發(fā)起企業(yè)內(nèi)部數(shù)據(jù)治理項(xiàng)目,制定數(shù)據(jù)治理規(guī)范,成立專業(yè)的數(shù)據(jù)管理實(shí)體團(tuán)隊(duì)來開展企業(yè)數(shù)據(jù)治理工作。
上面提到的這些種種數(shù)據(jù)管理模型,奠定了此后諸多行業(yè)化、定制化數(shù)據(jù)管理模型的基礎(chǔ),各個(gè)企業(yè)紛紛在這些已有理論模型基礎(chǔ)上擴(kuò)展、裁剪、引申、演化,可謂百花齊放。
企業(yè)開展數(shù)據(jù)管理類的工作,除了使用“數(shù)據(jù)治理”這個(gè)詞,業(yè)界也經(jīng)常使用“數(shù)據(jù)管理”、“數(shù)據(jù)管控”、“數(shù)據(jù)資產(chǎn)管理”等說法。總之,這幾個(gè)詞語,概念略有差異,內(nèi)涵基本一致,大家做的事,基本都跳不出DAMA數(shù)據(jù)管理模型的范圍。
Part 2
人工智能:大型科技企業(yè)爭(zhēng)奪未來的主戰(zhàn)場(chǎng)
提到人工智能,近年來可謂炙手可熱,產(chǎn)業(yè)界資本的積極布局,國(guó)家政府層面的大力宣傳,還有一些像自動(dòng)駕駛、機(jī)器人、智能客服、語音識(shí)別等方面實(shí)際應(yīng)用的涌現(xiàn),使得人工智能方面的人才身價(jià)倍增,很多大型科技企業(yè)也緊隨趨勢(shì),成立了AI研究院、人工智能研發(fā)中心等實(shí)體組織。百度李彥宏宣稱:“百度公司將不再是互聯(lián)網(wǎng)公司,而是一家人工智能公司”。中國(guó)移動(dòng)也高度重視人工智能,于2017年發(fā)布了“九天”人工智能平臺(tái),正努力將人工智能技術(shù)應(yīng)用在 網(wǎng)絡(luò)、市場(chǎng)、服務(wù)、安全、管理和衍生業(yè)務(wù)等多個(gè)領(lǐng)域。”就如一句段子所說:現(xiàn)在混在科技圈的,如果不說自己搞人工智能,都不好意思跟人打招呼。
人工智能已經(jīng)成為了大型科技企業(yè)爭(zhēng)奪未來的主戰(zhàn)場(chǎng),雖然尚不清楚,借助了更大的數(shù)據(jù)量(大數(shù)據(jù))、更快的計(jì)算力(GPU)、更強(qiáng)的算法技術(shù)(深度學(xué)習(xí)等),過去數(shù)年間這個(gè)一度沉寂的領(lǐng)域,這一波的爆發(fā)能持續(xù)多久的時(shí)間,但技術(shù)發(fā)展一般都呈現(xiàn)波浪狀,大數(shù)據(jù)的一波未平,人工智能一波又起,隨著人工智能和社會(huì)各行業(yè)各領(lǐng)域不斷融合和創(chuàng)新,相信在這新一輪的科技革命和產(chǎn)業(yè)變革進(jìn)程中,人工智能技術(shù)將扮演更加重要的角色。
人工智能的研究范疇包括自然語言處理,知識(shí)表現(xiàn),智能搜索,機(jī)器學(xué)習(xí),知識(shí)獲取,組合調(diào)度問題,感知問題,模式識(shí)別,神經(jīng)網(wǎng)絡(luò)等等,它的目標(biāo)是希望計(jì)算機(jī)擁有像人一樣的智力能力,可以替代人類實(shí)現(xiàn)識(shí)別、認(rèn)知、分類和決策等多種功能。
人工智能更是歷史悠久,1959年,計(jì)算機(jī)科學(xué)之父圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文《計(jì)算機(jī)器與智能》,文中提出了人工智能領(lǐng)域著名的圖靈測(cè)試:如果電腦能在5分鐘內(nèi)回答由人類測(cè)試者提出的一系列問題,且其超過30%的回答讓測(cè)試者誤認(rèn)為是人類所答,則電腦就通過測(cè)試并可下結(jié)論為機(jī)器具有智能。1956年,達(dá)特茅斯會(huì)議推動(dòng)了全球第一次人工智能浪潮的出現(xiàn),當(dāng)時(shí)樂觀的氣氛彌漫著整個(gè)學(xué)界,在算法方面出現(xiàn)了很多世界級(jí)的發(fā)明,其中包括一種叫做增強(qiáng)學(xué)習(xí)的雛形(即貝爾曼公式),增強(qiáng)學(xué)習(xí)就是谷歌AlphaGo算法核心思想內(nèi)容。現(xiàn)在常聽到的深度學(xué)習(xí)模型,其雛形叫做感知器,也是在那幾年間發(fā)明的。第一次人工智能冬天出現(xiàn)在1974年到1980年,人們發(fā)現(xiàn)邏輯證明器、感知器、增強(qiáng)學(xué)習(xí)等等只能做很簡(jiǎn)單、非常專業(yè)且使用場(chǎng)景很窄的任務(wù),稍微超出范圍就無法應(yīng)對(duì)。在80年代出現(xiàn)了人工智能數(shù)學(xué)模型方面的重大發(fā)明,其中包括著名的多層神經(jīng)網(wǎng)絡(luò)(1986)和BP反向傳播算法(1986)等,也出現(xiàn)了能與人類下象棋的高度智能機(jī)器(1989)。于是,大家又開始覺得人工智能可能還有戲。
然而,1987年到1993年現(xiàn)代PC的出現(xiàn),讓人工智能的寒冬再次降臨。當(dāng)時(shí)蘋果、IBM開始推廣第一代臺(tái)式機(jī),計(jì)算機(jī)開始走入個(gè)人家庭,其費(fèi)用遠(yuǎn)遠(yuǎn)低于專家系統(tǒng)所使用的Symbolics和Lisp等機(jī)器。相比于現(xiàn)代PC,專家系統(tǒng)被認(rèn)為古老陳舊而非常難以維護(hù)。于是,政府經(jīng)費(fèi)開始下降,寒冬又一次來臨。人們開始思考人工智能到底往何處走,到底要實(shí)現(xiàn)什么樣的人工智能。之后,出現(xiàn)了新的數(shù)學(xué)工具、新的理論和摩爾定律。人工智能也在確定自己的方向,其中一個(gè)選擇就是要做實(shí)用性、功能性的人工智能,這導(dǎo)致了一個(gè)新的人工智能路徑。由于對(duì)于人工智能任務(wù)的明確和簡(jiǎn)化,帶來了新的繁榮。標(biāo)志性事件就是1997年IBM深藍(lán)戰(zhàn)勝國(guó)際象棋大師。2011年,“深藍(lán)”的同門師弟“沃森”在美國(guó)老牌智力問答節(jié)目《危險(xiǎn)邊緣》中挑戰(zhàn)兩位人類冠軍,又使人工智能更上了一層臺(tái)階。2016年3月15日,谷歌研發(fā)的AlphaGo挑戰(zhàn)圍棋九段高手李世石,最后AlphaGo以4:1擊敗李世石,完爆人類,由此將人工智能推向了高潮。人們開始意識(shí)到機(jī)器智能已經(jīng)在很多領(lǐng)域超越人類,甚至有人擔(dān)心,未來機(jī)器人會(huì)控制人類,人工智能的發(fā)展已經(jīng)到了前所未有的高度。
數(shù)據(jù)治理和人工智能,看似不相關(guān)的兩個(gè)詞,他們兩者放一起,會(huì)發(fā)生什么故事呢。
Part 3
確保數(shù)據(jù)質(zhì)量和安全是發(fā)展人工智能的第一需求
如今,企業(yè)對(duì)于全面數(shù)據(jù)治理的需求從未如此強(qiáng)烈。監(jiān)管機(jī)構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù),對(duì)它進(jìn)行有效的管控;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應(yīng)用的復(fù)雜性,對(duì)企業(yè)進(jìn)行更高效的管理;企業(yè)員工也開始認(rèn)識(shí)到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動(dòng)的方式來開展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準(zhǔn)確完整,并且安全合規(guī),才能釋放出數(shù)據(jù)的無限潛能,挖掘出更多有價(jià)值的數(shù)據(jù)應(yīng)用。
而人工智能技術(shù)在應(yīng)用和實(shí)踐中,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會(huì)受到數(shù)據(jù)質(zhì)量和安全的影響,更多的企業(yè)開始反思并轉(zhuǎn)而去推動(dòng)數(shù)據(jù)質(zhì)量和安全的提升,提供數(shù)據(jù)質(zhì)量和安全評(píng)測(cè)工具,建立好的數(shù)據(jù)環(huán)境,再進(jìn)行人工智能應(yīng)用的同步研發(fā)。
大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵,是人工智能長(zhǎng)期發(fā)展的重要保障。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準(zhǔn)確、及時(shí)、一致的高質(zhì)量數(shù)據(jù),才能提供更有效、有用、精準(zhǔn)性高的智能化服務(wù)。根據(jù)埃森哲在2018年4月的一份調(diào)研發(fā)現(xiàn),中國(guó)制造企業(yè)在運(yùn)用人工智能技術(shù)時(shí)面臨一系列挑戰(zhàn)。其中,52%的受訪中國(guó)企業(yè)將數(shù)據(jù)質(zhì)量列為突出挑戰(zhàn),數(shù)據(jù)安全與網(wǎng)絡(luò)安全緊隨其后(47%)。在2017年4月的一次研討會(huì)上,圍繞人工智能話題,華為任正非提出:“高質(zhì)量的數(shù)據(jù)是人工智能的前提和基礎(chǔ)”。當(dāng)前,不管是人工智能技術(shù)的研發(fā),還是人工智能應(yīng)用領(lǐng)域的發(fā)展,“數(shù)據(jù)質(zhì)量”都是一個(gè)不可或缺、位于重中之重的要素。
人工智能發(fā)展的另一個(gè)重點(diǎn)保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù),要對(duì)外提供服務(wù),就會(huì)涉及數(shù)據(jù)的安全保護(hù),在這個(gè)過程中,一系列的數(shù)據(jù)安全防護(hù)手段是必不可少的,如數(shù)據(jù)脫敏管理,對(duì)敏感信息的風(fēng)險(xiǎn)評(píng)估、使用監(jiān)控,對(duì)數(shù)據(jù)的泄露檢測(cè),數(shù)據(jù)庫保密檢查等。人工智能需要海量的數(shù)據(jù),人工智能技術(shù)的進(jìn)步取決于各種來源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)質(zhì)量之外又一個(gè)重要問題。同時(shí),通過對(duì)業(yè)務(wù)數(shù)據(jù)應(yīng)用語義計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)圖譜、認(rèn)知計(jì)算等人工智能技術(shù),也可以促進(jìn)企業(yè)數(shù)據(jù)安全保障體系完善。因此,數(shù)據(jù)安全和人工智能兩種技術(shù)起到了相互促進(jìn)、相互完善的作用。
Part 4
搭借AI東風(fēng) 傳統(tǒng)數(shù)據(jù)治理悄然向“智能化”升級(jí)
經(jīng)過多年的理論更新、技術(shù)演進(jìn)和應(yīng)用實(shí)踐,與前些年前相比,如今的數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化。特別是隨著這一波人工智能浪潮的重新興起,數(shù)據(jù)治理技術(shù)和人工智能技術(shù)在一些方面也開始有了結(jié)合使用,應(yīng)用了人工智能技術(shù)的新一代數(shù)據(jù)治理可以稱之為“智能化數(shù)據(jù)治理”。
數(shù)據(jù)治理工作中,可以通過對(duì)大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),作數(shù)據(jù)挖掘和分析,來識(shí)別哪些可能是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常,一旦數(shù)據(jù)特征被確認(rèn),打上標(biāo)簽,未來再做數(shù)據(jù)管理時(shí),就可以使用元數(shù)據(jù)管理的方法機(jī)制,對(duì)外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù),就會(huì)有相應(yīng)的流程啟動(dòng),或在相關(guān)的數(shù)據(jù)對(duì)外服務(wù)提供過程中,一旦數(shù)據(jù)涉及個(gè)人隱私,則一定要小心處理,以避免引起政策方面的風(fēng)險(xiǎn)。通過上述應(yīng)用,可以增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。
另外,也可以在針對(duì)大數(shù)據(jù)開展數(shù)據(jù)質(zhì)量核查過程中,配合傳統(tǒng)根據(jù)預(yù)置的質(zhì)量核查規(guī)則進(jìn)行核查的方式,僅針對(duì)少量核心核查規(guī)則,從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本,經(jīng)過預(yù)處理,利用機(jī)器學(xué)習(xí)算法進(jìn)行深度分析,提取公共特征和模型,可以用來定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問題的預(yù)測(cè),并進(jìn)一步形成知識(shí)庫。這樣就可以更進(jìn)一步增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)質(zhì)量管理的能力。
對(duì)于數(shù)據(jù)模型的管理,機(jī)器學(xué)習(xí)技術(shù)可用來分析數(shù)據(jù)庫中數(shù)據(jù)實(shí)體的引用熱度,通過聚類算法自動(dòng)識(shí)別數(shù)據(jù)模型間的內(nèi)在關(guān)系,還可以用于數(shù)據(jù)模型質(zhì)量的檢測(cè)和評(píng)估。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理,像文檔內(nèi)容,圖像,音頻,視頻,更是可以充分利用人工智能中的自然語言處理、圖像識(shí)別、語音識(shí)別、視頻處理等技術(shù)。
Part 5
大數(shù)據(jù)治理如何全面擁抱AI
大數(shù)據(jù)治理,顧名思義,即基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù),一般指符合4V特征的數(shù)據(jù),包括社交數(shù)據(jù),機(jī)器數(shù)據(jù)等,大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)治理工作帶來很多的擴(kuò)展。在政策和流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲(chǔ)、安全等環(huán)節(jié);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲(chǔ)、保留、歸檔、處置時(shí),要考慮大數(shù)據(jù)保存時(shí)間與存儲(chǔ)空間的平衡;大數(shù)據(jù)量大,因此應(yīng)識(shí)別對(duì)業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量;大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù),需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準(zhǔn)保持一致,術(shù)語字典應(yīng)包含大數(shù)據(jù)的術(shù)語,需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類、語義支持,Hadoop、NoSQL數(shù)據(jù)庫的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲(chǔ)庫管理;此外,在隱私方面,應(yīng)考慮社交數(shù)據(jù)的隱私保護(hù)需求,制定相應(yīng)政策,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險(xiǎn)管控需求建立聯(lián)系。
數(shù)字化時(shí)代,大數(shù)據(jù)治理應(yīng)該如何和人工智能技術(shù)深度結(jié)合,人工智能技術(shù)在大數(shù)據(jù)治理領(lǐng)域能有哪些應(yīng)用,下面提供一些簡(jiǎn)單的思路。
數(shù)據(jù)安全管理
當(dāng)前已經(jīng)有許多行業(yè)信息安全解決方案都開始使用機(jī)器學(xué)習(xí)算法來識(shí)別潛在的系統(tǒng)攻擊,通過機(jī)器學(xué)習(xí)可以建立用于檢測(cè)異常情況的“正?!毙袨榈幕€,一切不符合基線標(biāo)準(zhǔn)的異常情況都能及時(shí)預(yù)警和處理。
元數(shù)據(jù)管理
互聯(lián)網(wǎng)企業(yè)使用機(jī)器學(xué)習(xí),分析用戶點(diǎn)擊過哪些鏈接,為用戶生成畫像,打上特定的標(biāo)簽,來做商品、內(nèi)容的推薦和優(yōu)化用戶搜索結(jié)果。這些描述用戶消費(fèi)形為、興趣偏好特征的元數(shù)據(jù)信息,已經(jīng)成為互聯(lián)網(wǎng)企業(yè)得以生存發(fā)展的核心數(shù)據(jù)資產(chǎn)。
數(shù)據(jù)質(zhì)量管理
在金融行業(yè),銀行信用卡發(fā)卡部門很早就開始利用機(jī)器學(xué)習(xí)技術(shù),來識(shí)別不合規(guī)的申請(qǐng)人、虛假申請(qǐng)信息以及可能存在欺詐性的交易行為。此外,既然機(jī)器學(xué)習(xí)可以識(shí)別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測(cè)制成品或食品中的異常情況。企業(yè)可以通過將實(shí)體物品生產(chǎn)過程數(shù)字化,然后使用經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)來識(shí)別不符合標(biāo)準(zhǔn)或規(guī)格的產(chǎn)品數(shù)據(jù),挑出異常數(shù)據(jù),從而部分替代人類檢測(cè)員的工作。
非結(jié)構(gòu)化數(shù)據(jù)管理
近年來,利用機(jī)器學(xué)習(xí)的人臉識(shí)別系統(tǒng)能力一直在提高,已經(jīng)大量應(yīng)用在識(shí)別已知的犯罪分子、員工上班考勤、或者識(shí)別公共場(chǎng)所中超出規(guī)范或違反法律的行為或活動(dòng)。而醫(yī)療行業(yè),則可以利用機(jī)器學(xué)習(xí)工具,通過對(duì)大量紙質(zhì)和圖像病例資料的訓(xùn)練學(xué)習(xí),構(gòu)建醫(yī)療知識(shí)庫,輔助專業(yè)醫(yī)護(hù)人員,診斷疾病并提出最有效的治療策略。
各類社交網(wǎng)站每天都在產(chǎn)生著大量非結(jié)構(gòu)化數(shù)據(jù),企業(yè)可以利用機(jī)器學(xué)習(xí)技術(shù)來實(shí)時(shí)發(fā)現(xiàn)和識(shí)別潛在的問題,手寫識(shí)別、語音轉(zhuǎn)寫、自然語言處理技術(shù)也在不同場(chǎng)景中大量應(yīng)用,可以提高人們識(shí)別、理解和處理非結(jié)構(gòu)化數(shù)據(jù)的能力。
數(shù)據(jù)共享開放
企業(yè)可以充分利用人工智能技術(shù),以信息化、自動(dòng)化方式,共享和開放一部分?jǐn)?shù)據(jù)或數(shù)據(jù)加工結(jié)果,對(duì)外提供服務(wù),提升企業(yè)競(jìng)爭(zhēng)力。最典型的就是現(xiàn)在各種客戶服務(wù)機(jī)器人,可以使用自然語言處理技術(shù)處理回答客戶提出的常見問題,并隨著時(shí)間的推移提高答案的質(zhì)量。據(jù)悉,中國(guó)移動(dòng)客戶服務(wù)系統(tǒng)中機(jī)器服務(wù)的比例已經(jīng)提升到了20%。
另外一個(gè)常見的應(yīng)用領(lǐng)域就是營(yíng)銷推薦,在許多行業(yè)中,將適合的產(chǎn)品投放到正確的位置對(duì)于商業(yè)成功至關(guān)重要。機(jī)器學(xué)習(xí)系統(tǒng)可以使用企業(yè)收集的用戶數(shù)據(jù),根據(jù)用戶過去的購物習(xí)慣預(yù)測(cè)可能喜歡的物品,再將預(yù)測(cè)結(jié)果數(shù)據(jù)向企業(yè)電商系統(tǒng)或銷售決策系統(tǒng)開放。Facebook前科學(xué)家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點(diǎn)擊更多廣告…”。
數(shù)據(jù)資產(chǎn)分析
物聯(lián)網(wǎng)(IOT)的大發(fā)展提供了許多潛在的機(jī)器學(xué)習(xí)使用場(chǎng)景,其中就包括預(yù)測(cè)性維護(hù),企業(yè)可以使用歷史設(shè)備數(shù)據(jù)開展預(yù)測(cè)分析,推斷機(jī)器可能發(fā)生故障的時(shí)間,使其能夠在影響業(yè)務(wù)運(yùn)行之前主動(dòng)進(jìn)行維修或安裝更換部件。對(duì)于物流企業(yè)來說,設(shè)置時(shí)間表和路線是一件復(fù)雜而費(fèi)時(shí)的工作,機(jī)器學(xué)習(xí)系統(tǒng)可以通過對(duì)交通數(shù)據(jù)的分析和監(jiān)控,幫助企業(yè)規(guī)劃貨物運(yùn)輸路線及計(jì)劃,提出最有效和最具成本效益的方法。
另外,在金融市場(chǎng)交易中,每個(gè)交易者都希望在市場(chǎng)上找到能讓他們低買高賣的模式,大的金融機(jī)構(gòu)更是花費(fèi)重金,使用人工智能技術(shù)針對(duì)金融交易數(shù)據(jù)做深度的分析挖掘,打造自己的量化交易系統(tǒng),以期望能在變幻莫測(cè)的市場(chǎng)風(fēng)云中更早一步識(shí)別潛在的風(fēng)險(xiǎn)和機(jī)會(huì)。
Part 6
讓懂?dāng)?shù)據(jù)治理的人來做人工智能
2018年5月,中國(guó)國(guó)際大數(shù)據(jù)博覽會(huì)上,中國(guó)科學(xué)院院士梅宏發(fā)表演講中表示,大數(shù)據(jù)治理體系建設(shè)是我們國(guó)家實(shí)施大數(shù)據(jù)戰(zhàn)略的重要保障,是發(fā)揮大數(shù)據(jù)作用,做大做強(qiáng)大數(shù)據(jù)產(chǎn)業(yè)的重要因素,也是關(guān)鍵基礎(chǔ)。當(dāng)下,做人工智能的企業(yè)很多,人工智能的基礎(chǔ)就是大數(shù)據(jù),數(shù)據(jù)首先要能互通、共享,如果數(shù)據(jù)不通,標(biāo)準(zhǔn)不一致,質(zhì)量不高,就很難做分析、建模,更談不上預(yù)測(cè)的準(zhǔn)確性。開展數(shù)據(jù)治理則能為企業(yè)提供一個(gè)高質(zhì)量的數(shù)據(jù)工作環(huán)境,促進(jìn)人工智能技術(shù)的研究和實(shí)踐??傊瑪?shù)據(jù)治理是人工智能的基礎(chǔ),想做人工智能,需要先把數(shù)據(jù)治理這個(gè)基礎(chǔ)打好。
對(duì)大型科技企業(yè)來說,面對(duì)日益激烈的競(jìng)爭(zhēng)環(huán)境,企業(yè)亟需進(jìn)行數(shù)字化轉(zhuǎn)型,一方面要做好數(shù)據(jù)治理,另一方面,數(shù)據(jù)治理政策也對(duì)人工智能發(fā)展發(fā)揮著重要的影響。
作為歐盟“史上最嚴(yán)”的數(shù)據(jù)保護(hù)法規(guī),備受關(guān)注的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效,相關(guān)組織機(jī)構(gòu)需于該生效日起遵照新規(guī)行事。一方面,GDPR適用的地域范圍不僅限于歐盟境內(nèi),也適用于提供業(yè)務(wù)給歐盟境內(nèi)個(gè)人的境外組織機(jī)構(gòu);另一方面,GDPR在全面加強(qiáng)個(gè)人信息保護(hù)、強(qiáng)調(diào)用戶知情權(quán)、訪問權(quán)和被遺忘權(quán)的同時(shí),對(duì)相關(guān)組織機(jī)構(gòu)提出更為嚴(yán)格的合規(guī)要求,并以最高罰沒其全球營(yíng)業(yè)額的4%或2千萬歐元(以金額較高者為準(zhǔn))為條例的施行保駕護(hù)航。
GDPR的制定者認(rèn)為,在大數(shù)據(jù)時(shí)代,隱私權(quán)就是人權(quán)。根據(jù)這一條例,個(gè)人消費(fèi)者可以享有更多權(quán)力,并通過對(duì)違規(guī)行為的嚴(yán)厲處罰,更好地保護(hù)消費(fèi)者的數(shù)據(jù)資產(chǎn)和個(gè)人隱私。但同時(shí), GDPR將會(huì)對(duì)國(guó)內(nèi)互聯(lián)網(wǎng)及商業(yè)科技公司會(huì)產(chǎn)生長(zhǎng)遠(yuǎn)的影響。有業(yè)內(nèi)人士表示:“如果歐盟對(duì)GDPR的執(zhí)行力度非常嚴(yán),中國(guó)企業(yè)會(huì)“中槍”99%的條款?!睂?duì)以消費(fèi)者數(shù)據(jù)應(yīng)用為主要業(yè)務(wù)的國(guó)內(nèi)科技公司來說,更不可能成為例外。GDPR是一部重整全球數(shù)據(jù)秩序的法令,將成為未來全球網(wǎng)絡(luò)空間規(guī)則的基石。GDPR對(duì)基于個(gè)人信息搜集和隱私驅(qū)動(dòng)的中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)收入模式將產(chǎn)生重大影響,甚至可能是顛覆性的影響。
此外,我國(guó)對(duì)個(gè)人信息保護(hù)方面,《信息安全技術(shù)個(gè)人信息安全規(guī)范》于2018年5月1日的正式實(shí)施,已經(jīng)對(duì)我國(guó)科技公司產(chǎn)生了實(shí)質(zhì)性的影響。過去幾年,隨著我國(guó)大型科技企業(yè)在人工智能領(lǐng)域突飛猛進(jìn)的發(fā)展,從支付領(lǐng)域的身份識(shí)別(人臉、指紋、虹膜、語音識(shí)別)到信貸領(lǐng)域的大數(shù)據(jù)風(fēng)控,我國(guó)科技企業(yè)通過使用消費(fèi)者數(shù)據(jù),提供了智能化服務(wù)便利性的同時(shí),由于法律制度和文化環(huán)境等因素,在保護(hù)消費(fèi)者隱私的合規(guī)性方面做得還不到位。
未來,以歐盟為代表的監(jiān)管者,拿著“GDPR”大棒,隨時(shí)對(duì)違規(guī)企業(yè)進(jìn)行處罰。在這種內(nèi)外多重因素的推動(dòng)下,開展數(shù)據(jù)治理,以及對(duì)數(shù)據(jù)治理的政策研究和應(yīng)對(duì),將成為企業(yè)人工智能技術(shù)應(yīng)用過程中亟待解決的重大問題。
Part 7
管理數(shù)據(jù)資產(chǎn),決勝智能時(shí)代
隨著數(shù)字時(shí)代的到來,企業(yè)在開展數(shù)據(jù)治理和人工智能研究研發(fā)工作中,兩者的結(jié)合必不可少,近年來一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時(shí),存在數(shù)據(jù)認(rèn)知不清、數(shù)據(jù)治理不當(dāng)、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象,出現(xiàn)了不少負(fù)面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控,應(yīng)該從人工智能的源頭 – 大數(shù)據(jù)上開始建立科學(xué)的數(shù)據(jù)治理體系,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對(duì)商業(yè)價(jià)值和用戶隱私,以及企業(yè)長(zhǎng)期利益和短期利益選擇的基礎(chǔ),建立數(shù)據(jù)治理體系是一個(gè)長(zhǎng)期的過程,對(duì)于大型科技企業(yè),都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價(jià)值,提供人工智能服務(wù)。
結(jié)語
數(shù)據(jù)治理是人工智能的基礎(chǔ),數(shù)據(jù)治理的目的是在業(yè)務(wù)價(jià)值驅(qū)動(dòng)下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分,數(shù)據(jù)治理強(qiáng)調(diào)修煉內(nèi)功,人工智能側(cè)重預(yù)測(cè)未來。