作為全球優(yōu)秀科技青年的溝通橋梁,劍橋國際青年學(xué)術(shù)論壇圍繞人工智能、光電信息技術(shù)、新能源、生物醫(yī)藥等全球應(yīng)用廣闊的新興技術(shù)展開,邀請了英國皇家工程院院士David Cardwell、中科院外籍院士王中林以及來自哈佛大學(xué)、帝國理工、諾丁漢大學(xué)、清華大學(xué)等高校極具影響力的教授學(xué)者與學(xué)術(shù)代表匯聚一堂,共話技術(shù)革新,吸引全球數(shù)千名學(xué)者觀看討論。
近日,以“技術(shù)革新,十年可期”為主題的首屆劍橋國際青年學(xué)術(shù)論壇開幕。第四范式、華為、Google DeepMind作為僅有的三家AI企業(yè)代表,分享了AI領(lǐng)域最新的學(xué)術(shù)成果及前沿趨勢。其中,第四范式副總裁、主任科學(xué)家涂威威發(fā)表了題為Towards AI for Everyone的主題演講,并詳細(xì)介紹了第四范式在推動(dòng)人工智能應(yīng)用普及過程中的思考與實(shí)踐。
涂威威觀察到,近年來,機(jī)器學(xué)習(xí)在推薦系統(tǒng)、在線廣告、金融市場分析、計(jì)算機(jī)視覺、語言學(xué)、生物信息學(xué)等領(lǐng)域都取得了成功。但其背后,頂尖的機(jī)器學(xué)習(xí)專家團(tuán)隊(duì)參與了包括定義問題、收集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征工程、選擇或設(shè)計(jì)模型架構(gòu)、調(diào)整模型超參數(shù)、性能評估等機(jī)器學(xué)習(xí)的所有階段。極高的技術(shù)門檻、人才匱乏、專家經(jīng)驗(yàn)難以復(fù)制、高成本投入等因素成為阻礙AI在各領(lǐng)域落地的“絆腳石”。
為了推動(dòng)機(jī)器學(xué)習(xí)技術(shù)在更廣泛的場景得以應(yīng)用,AutoML(自動(dòng)機(jī)器學(xué)習(xí))成為了學(xué)術(shù)界和工業(yè)界的研究重點(diǎn)。其目的是將機(jī)器學(xué)習(xí)過程自動(dòng)化,以低門檻的形式實(shí)現(xiàn)AI構(gòu)建和應(yīng)用。而真正讓AutoML從學(xué)術(shù)走向應(yīng)用,解決真實(shí)業(yè)務(wù)場景需求,則需要從性能、效率等方面著手,提高模型精度與計(jì)算效率,降低計(jì)算成本,擴(kuò)展AutoML應(yīng)用范圍。
目前,以Google為首的AutoML主要以非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)化技術(shù)為研究方向,覆蓋了語音、圖像、文本、NLP等領(lǐng)域。事實(shí)上,表數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)在AutoML應(yīng)用方面同樣具有廣闊應(yīng)用范圍,并帶來了極高的業(yè)務(wù)價(jià)值。且隨著業(yè)務(wù)需求的飛速發(fā)展與急速擴(kuò)張,半結(jié)構(gòu)化數(shù)據(jù)(異構(gòu)信息網(wǎng)絡(luò)、知識圖譜等)也在AutoML技術(shù)探索應(yīng)用中占據(jù)一席之地。
現(xiàn)如今,AutoML算法層出不窮,AI頭部公司以及研究機(jī)構(gòu)都將其列為重要研究方向。第四范式已實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)(自動(dòng)特征組合、自動(dòng)時(shí)序特征、自動(dòng)半監(jiān)督學(xué)習(xí)等)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(AutoCV、AutoSpeech、AutoNLP等)、自動(dòng)決策優(yōu)化(AutoRL、AutoDFO等)的AutoML算法全覆蓋。然而,在實(shí)際落地中,算法只是其中一環(huán),解決業(yè)務(wù)問題,還面臨數(shù)據(jù)、模型應(yīng)用系統(tǒng)等諸多挑戰(zhàn)。以數(shù)據(jù)為例,僅依靠高質(zhì)量標(biāo)注數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠,離線數(shù)據(jù)分析時(shí)數(shù)據(jù)不一致,也會(huì)極大影響算法效果。此外,AutoML技術(shù)在落地過程中還需進(jìn)一步解決多目標(biāo)優(yōu)化、可解釋性等問題。
在涂威威看來,人機(jī)結(jié)合的交互式AutoML能有效解決上述挑戰(zhàn),正在成為AutoML落地的新路徑。該理念采取人與機(jī)器協(xié)作的方式優(yōu)化目標(biāo)與配置空間,各自負(fù)責(zé)擅長的領(lǐng)域,通過人的少量輔助提高AutoML在業(yè)務(wù)應(yīng)用的效果和落地效率。具體來說,企業(yè)業(yè)務(wù)人員基于業(yè)務(wù)經(jīng)驗(yàn)定義問題,設(shè)定目標(biāo),使AutoML始終朝向效果提升的方向迭代。機(jī)器則負(fù)責(zé)計(jì)算,算出特定目標(biāo)下的較優(yōu)配置選擇。這樣的組合可以使AutoML快速高效應(yīng)用于各業(yè)務(wù)場景中。
在計(jì)算效率方面,除了提升配置優(yōu)化算法效率以外,還需要在底層計(jì)算架構(gòu)上進(jìn)行深度優(yōu)化,其原因在于目前主流計(jì)算框架(如 Tensorflow、PyTorch 等)只為單次機(jī)器學(xué)習(xí)模型訓(xùn)練優(yōu)化,而非針對AutoML重復(fù)迭代的計(jì)算方式所優(yōu)化,這影響了AutoML在主流計(jì)算框架的計(jì)算效率。第四范式則為AutoML設(shè)計(jì)了專屬的底層計(jì)算架構(gòu),對多次模型學(xué)習(xí)提供了配置評估和橫向、縱向的動(dòng)態(tài)計(jì)算,同時(shí)在參數(shù)上探索共享計(jì)算,只用增加單次模型學(xué)習(xí)60%左右的計(jì)算代價(jià),就可獲得數(shù)十次的配置評估,極大提高了計(jì)算效率。此外,算法與底層硬件的深度融合同樣重要,需從在計(jì)算、存儲、網(wǎng)絡(luò)、調(diào)度等方面進(jìn)行軟硬一體化設(shè)計(jì),進(jìn)一步降低AI算力投入。
通過持續(xù)不斷的研究和投入,第四范式已覆蓋了多方向的AutoML算法研究,并在效率、泛化性、動(dòng)態(tài)環(huán)境AutoML、安全性、可解釋性等方面取得了突破。未來,第四范式還將從學(xué)術(shù)、應(yīng)用兩個(gè)角度出發(fā),在算法層面有更深層次研究的同時(shí),更好地解決數(shù)據(jù)治理、模型應(yīng)用等AutoML上下游問題,推動(dòng)技術(shù)在更多行業(yè)、更多場景中落地應(yīng)用。