第四范式榮獲國內(nèi)首個遷移學(xué)習(xí)算法大賽冠軍
        2017-06-08

        【2017年6月3日,北京】由前海征信主辦、科賽網(wǎng)承辦的“好信杯”大數(shù)據(jù)算法大賽落下帷幕,該賽事將賽題鎖定在遷移學(xué)習(xí)方向。僅由第四范式機器學(xué)習(xí)工程師羅遠(yuǎn)飛一人組成的dandange團隊利用第四范式自主研發(fā)的分布式并行計算框架GDBT,在顯著減少特征工程工作量的情況下,取得了出色的模型效果。并在決賽答辯中展現(xiàn)了豐富的知識儲備,以精湛的算法和穩(wěn)定的現(xiàn)場表現(xiàn)獲得大賽冠軍。


        據(jù)悉,該賽事歷時兩個月,共吸引242支隊伍共600多位選手參賽,選手們共提交145份模型作品、17份算法方案,最終10支團隊入圍決賽。


        正是看準(zhǔn)了遷移學(xué)習(xí)的巨大潛能,本次算法大賽將遷移學(xué)習(xí)設(shè)為主題,參賽選手依據(jù)給定的4萬條業(yè)務(wù)信用貸款數(shù)據(jù)及4千條現(xiàn)金貸數(shù)據(jù),建立現(xiàn)金貸業(yè)務(wù)的信用評分模型,將信用貸款數(shù)據(jù)所獲得的知識遷移到現(xiàn)金貸業(yè)務(wù)中。


        遷移學(xué)習(xí)的核心難點在于如何發(fā)現(xiàn)共同點,即如果發(fā)現(xiàn)源數(shù)據(jù)領(lǐng)域A和目標(biāo)領(lǐng)域B之間的共同特征。此次在建模中,dandange通過多任務(wù)學(xué)習(xí)、TrAdaBoost(第四范式創(chuàng)始人兼首席執(zhí)行官戴文淵于2007年發(fā)表的《Boosting for Transfer Learning》論文中提及)等不同的方法建模,最后通過加權(quán)平均的方式對多個模型進行融合,從而提升算法的精度和穩(wěn)定性。


        由于特征工程和業(yè)務(wù)緊密相關(guān),所以單純依賴特征工程來提升建模效果的遷移學(xué)習(xí)方案并不具備可擴展性。此次dandange在減少特征工程工作量的前提下,基于GDBT平臺,實現(xiàn)了完整的遷移學(xué)習(xí)解決方案。因該方案并未針對具體業(yè)務(wù)實施特征工程,而是更側(cè)重于遷移學(xué)習(xí)算法的優(yōu)化,使該方案有較強的可擴展性,從而讓遷移學(xué)習(xí)的能力應(yīng)用到不同的領(lǐng)域中。


        與其他參賽選手使用開源工具如XGBoost不同,dandange使用的算法均基于GDBT平臺。GDBT平臺是第四范式針對機器學(xué)習(xí)計算任務(wù)自主設(shè)計開發(fā)的分布式并行計算框架,在計算、通訊、存儲、災(zāi)備等方面針對機器學(xué)習(xí)任務(wù)進行了深入優(yōu)化,兼顧了開發(fā)效率和運行效率。且隨著計算能力的提升,該架構(gòu)使模型的復(fù)雜度與投入的計算資源呈線性增長,與以往的架構(gòu)相比,節(jié)省了大量的計算資源。


        此前,第四范式聯(lián)合創(chuàng)始人兼首席科學(xué)家楊強教授認(rèn)為,遷移學(xué)習(xí)將是人工智能下一個重大技術(shù)風(fēng)口之一。首先,機器學(xué)習(xí)需要在大量的數(shù)據(jù)中學(xué)習(xí),因此數(shù)據(jù)的規(guī)模和質(zhì)量非常重要。但在實際的商業(yè)及生活中,部分場景的數(shù)據(jù)樣本量較小,該類場景就需要遷移學(xué)習(xí)技術(shù)實現(xiàn)“AI化”。其次,遷移學(xué)習(xí)可以實現(xiàn)可靠性強的系統(tǒng)處理能力,做到舉一反三,融會貫通。如同我們掌握了一個知識,可以把它再推廣到其他的領(lǐng)域中去應(yīng)用。第三,未來個性化的數(shù)據(jù)愈加重要,我們面臨如何能夠把一個通用的系統(tǒng)加上個性化的小數(shù)據(jù),遷移到不同的個性化的場景中,因此遷移學(xué)習(xí)是必不可少的工具。DeepMind創(chuàng)始人Demis Hassabis也曾在《經(jīng)濟學(xué)人》上公開表示Google正在探索遷移學(xué)習(xí)技術(shù)。


        目前,第四范式在遷移學(xué)習(xí)領(lǐng)域保持著全球絕對領(lǐng)先的優(yōu)勢,作為遷移學(xué)習(xí)技術(shù)的全球領(lǐng)軍者——楊強教授在遷移學(xué)習(xí)領(lǐng)域的單篇論文引用數(shù)世界第一,戴文淵的論文引用數(shù)世界第三,也正因如此遷移學(xué)習(xí)被新華社等權(quán)威媒體稱為是“中國技術(shù)追趕發(fā)達(dá)國家的重要契機”。

        主站蜘蛛池模板: 盐山县| 尼玛县| 汝城县| 景谷| 临沧市| 栾川县| 缙云县| 龙陵县| 桃园县| 小金县| 镇坪县| 唐山市| 集安市| 渑池县| 灵山县| 仙桃市| 泸溪县| 光山县| 进贤县| 慈利县| 汤原县| 乌兰浩特市| 井冈山市| 鹤岗市| 富平县| 建始县| 杭州市| 陇南市| 达州市| 寿阳县| 崇阳县| 镇沅| 定南县| 中卫市| 莲花县| 常宁市| 清涧县| 濉溪县| 邵阳市| 威信县| 武山县|