第四范式開(kāi)源項(xiàng)目OpenMLDB榮登ACM旗艦期刊
        2023-07-21
        日前,最新一期的ACM(國(guó)際計(jì)算機(jī)學(xué)會(huì))旗艦期刊《Communications of the ACM》(ACM 通訊) 刊登了由第四范式主導(dǎo)的開(kāi)源機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)項(xiàng)目 OpenMLDB 的文章,獲得了期刊編輯主席團(tuán)的一致認(rèn)可。


        文章鏈接:https://cacm.acm.org/magazines/2023/7/274061-principles-and-practices-of-real-time-feature-computing-platforms-for-ml/fulltext

        《Communications of the ACM》被譽(yù)為計(jì)算機(jī)界的Nature,主要刊登面向全世界計(jì)算機(jī)領(lǐng)域具有深刻影響力的學(xué)術(shù)或工業(yè)界成果,以刊載研究論文、評(píng)論、實(shí)例分析文章、應(yīng)用指南、技術(shù)通訊及學(xué)術(shù)動(dòng)態(tài)等內(nèi)容為主,是計(jì)算機(jī)專(zhuān)業(yè)最有影響力的技術(shù)期刊之一。

        新南威爾士大學(xué)教授Flora Salim、日本國(guó)立情報(bào)學(xué)研究所教授 Ken-ichi Kawarabayashi、新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)及教授、2020 ACM 杰出科學(xué)家 Dr. Bingsheng He 等多位期刊編輯主席,均對(duì) OpenMLDB 在推動(dòng)人工智能在企業(yè)級(jí)應(yīng)用中落地所做的貢獻(xiàn)給予了肯定。其中,Dr. Bingsheng He 將其視為“a very efficient feature engineering tool to help AI task(面向AI任務(wù)的高效特征工程工具)。”

        《Communications of the ACM》7月刊采訪視頻

        此次刊登OpenMLDB的文章名為“Principles and Practices of Real-Time Feature Computing Platforms for ML”,該文章從業(yè)務(wù)挑戰(zhàn)、設(shè)計(jì)原理、核心特性、最佳實(shí)踐等方面對(duì)面向機(jī)器學(xué)習(xí)的實(shí)時(shí)特征計(jì)算平臺(tái) OpenMLDB 展開(kāi)介紹。

        以下為摘錄的部分內(nèi)容:

        在機(jī)器學(xué)習(xí)的很多應(yīng)用場(chǎng)景中,為了獲得高業(yè)務(wù)價(jià)值的模型,對(duì)于實(shí)時(shí)特征有很強(qiáng)的需求,比如實(shí)時(shí)的個(gè)性化推薦、風(fēng)控、反欺詐等。但是,由數(shù)據(jù)科學(xué)家所構(gòu)建的特征計(jì)算腳本(一般基于Python、SparkSQL 開(kāi)發(fā)),由于無(wú)法滿(mǎn)足低延遲、高吞吐、高可用等生產(chǎn)級(jí)特性,因此無(wú)法直接上線。為了在生產(chǎn)環(huán)境中上線特征腳本用于模型推理,并且滿(mǎn)足實(shí)時(shí)計(jì)算的性能要求,往往需要工程化團(tuán)隊(duì)(使用高性能數(shù)據(jù)庫(kù)、C++ 等)進(jìn)行代碼重構(gòu)和優(yōu)化。那么,由于兩個(gè)團(tuán)隊(duì)、兩套系統(tǒng)參與了從離線開(kāi)發(fā)到部署上線的全流程,線上線下一致性校驗(yàn)成為一個(gè)必不可少的步驟,其往往需要耗費(fèi)大量的溝通成本、開(kāi)發(fā)成本和測(cè)試成本。

        為解決這一問(wèn)題,OpenMLDB依托 SQL 開(kāi)發(fā)能力,面向開(kāi)發(fā)即上線的優(yōu)化目標(biāo)以及實(shí)時(shí)計(jì)算的高性能進(jìn)行設(shè)計(jì),為企業(yè)級(jí)機(jī)器學(xué)習(xí)應(yīng)用提供線上線下計(jì)算一致、高性能低門(mén)檻的生產(chǎn)級(jí)特征平臺(tái)。

        如圖1 所示,在傳統(tǒng)流程中,為了上線一個(gè)實(shí)時(shí)特征服務(wù),首先科學(xué)家進(jìn)行離線特征腳本開(kāi)發(fā),然后由工程化團(tuán)隊(duì)重構(gòu)為符合線上生產(chǎn)需求的實(shí)時(shí)服務(wù),還需要由科學(xué)家和工程化團(tuán)隊(duì)進(jìn)行線上線下一致性校驗(yàn),整個(gè)流程可能耗費(fèi)數(shù)月人天成本。基于 OpenMLDB,數(shù)據(jù)科學(xué)家使用 SQL 語(yǔ)言定義特征,通過(guò)一致性執(zhí)行計(jì)劃生成器在程序內(nèi)部保證線上和線下的一致性,并且通過(guò)實(shí)時(shí) SQL 引擎保證線上服務(wù)的低延遲、高吞吐、高可用。因此,數(shù)據(jù)科學(xué)家使用 SQL 做離線特征開(kāi)發(fā),當(dāng)驗(yàn)證滿(mǎn)足業(yè)務(wù)需求后,僅需通過(guò)命令一鍵部署到線上服務(wù),實(shí)現(xiàn)開(kāi)發(fā)即上線,帶來(lái)數(shù)月人天成本的節(jié)省。

        圖1 面向開(kāi)發(fā)即上線目標(biāo)設(shè)計(jì)的 OpenMLDB 抽象架構(gòu)
        目前,OpenMLDB已在Akulaku、唯品會(huì)等社區(qū)企業(yè)用戶(hù)中廣泛使用。其中:

        • Akulakua(出海互聯(lián)網(wǎng)金融公司 ) :將 OpenMLDB 應(yīng)用于其金融科技類(lèi)場(chǎng)景中,不僅提升團(tuán)隊(duì)約一倍人效、節(jié)約數(shù)百萬(wàn)成本,同時(shí) OpenMLDB 也是相比 Spark、Flink 及其他 MPP 選型中唯一具備線性 scale 能力的方案。

        • 唯品會(huì)(中國(guó)頭部品牌特賣(mài)電商) :將 OpenMLDB 應(yīng)用于其海外業(yè)務(wù)的商品及品牌個(gè)性化推薦場(chǎng)景,帶來(lái) 10毫秒以?xún)?nèi)的推薦延時(shí)以及特征開(kāi)發(fā)迭代速度60%的提升。

        OpenMLDB官網(wǎng)
        https://openmldb.ai/
        OpenMLDB GitHub主頁(yè)
        https://github.com/4paradigm/OpenMLDB
        OpenMLDB文檔:
        https://openmldb.ai/docs/zh/

        主站蜘蛛池模板: 松溪县| 张北县| 昭通市| 介休市| 崇左市| 额济纳旗| 胶州市| 乐平市| 田林县| 清原| 石楼县| 高陵县| 肇州县| 大安市| 克东县| 瓦房店市| 仙居县| 资兴市| 阳东县| 鹤峰县| 凤山县| 章丘市| 年辖:市辖区| 会昌县| 文成县| 巩留县| 水城县| 治县。| 开原市| 浪卡子县| 博罗县| 长治县| 炉霍县| 莱芜市| 女性| 南漳县| 平武县| 盐山县| 鸡东县| 洛宁县| 云浮市|