第四范式開源項目OpenMLDB榮登ACM旗艦期刊
        2023-07-21
        日前,最新一期的ACM(國際計算機學(xué)會)旗艦期刊《Communications of the ACM》(ACM 通訊) 刊登了由第四范式主導(dǎo)的開源機器學(xué)習(xí)數(shù)據(jù)庫項目 OpenMLDB 的文章,獲得了期刊編輯主席團的一致認可。


        文章鏈接:https://cacm.acm.org/magazines/2023/7/274061-principles-and-practices-of-real-time-feature-computing-platforms-for-ml/fulltext

        《Communications of the ACM》被譽為計算機界的Nature,主要刊登面向全世界計算機領(lǐng)域具有深刻影響力的學(xué)術(shù)或工業(yè)界成果,以刊載研究論文、評論、實例分析文章、應(yīng)用指南、技術(shù)通訊及學(xué)術(shù)動態(tài)等內(nèi)容為主,是計算機專業(yè)最有影響力的技術(shù)期刊之一。

        新南威爾士大學(xué)教授Flora Salim、日本國立情報學(xué)研究所教授 Ken-ichi Kawarabayashi、新加坡國立大學(xué)計算機學(xué)院副院長及教授、2020 ACM 杰出科學(xué)家 Dr. Bingsheng He 等多位期刊編輯主席,均對 OpenMLDB 在推動人工智能在企業(yè)級應(yīng)用中落地所做的貢獻給予了肯定。其中,Dr. Bingsheng He 將其視為“a very efficient feature engineering tool to help AI task(面向AI任務(wù)的高效特征工程工具)。”

        《Communications of the ACM》7月刊采訪視頻

        此次刊登OpenMLDB的文章名為“Principles and Practices of Real-Time Feature Computing Platforms for ML”,該文章從業(yè)務(wù)挑戰(zhàn)、設(shè)計原理、核心特性、最佳實踐等方面對面向機器學(xué)習(xí)的實時特征計算平臺 OpenMLDB 展開介紹。

        以下為摘錄的部分內(nèi)容:

        在機器學(xué)習(xí)的很多應(yīng)用場景中,為了獲得高業(yè)務(wù)價值的模型,對于實時特征有很強的需求,比如實時的個性化推薦、風(fēng)控、反欺詐等。但是,由數(shù)據(jù)科學(xué)家所構(gòu)建的特征計算腳本(一般基于Python、SparkSQL 開發(fā)),由于無法滿足低延遲、高吞吐、高可用等生產(chǎn)級特性,因此無法直接上線。為了在生產(chǎn)環(huán)境中上線特征腳本用于模型推理,并且滿足實時計算的性能要求,往往需要工程化團隊(使用高性能數(shù)據(jù)庫、C++ 等)進行代碼重構(gòu)和優(yōu)化。那么,由于兩個團隊、兩套系統(tǒng)參與了從離線開發(fā)到部署上線的全流程,線上線下一致性校驗成為一個必不可少的步驟,其往往需要耗費大量的溝通成本、開發(fā)成本和測試成本。

        為解決這一問題,OpenMLDB依托 SQL 開發(fā)能力,面向開發(fā)即上線的優(yōu)化目標以及實時計算的高性能進行設(shè)計,為企業(yè)級機器學(xué)習(xí)應(yīng)用提供線上線下計算一致、高性能低門檻的生產(chǎn)級特征平臺。

        如圖1 所示,在傳統(tǒng)流程中,為了上線一個實時特征服務(wù),首先科學(xué)家進行離線特征腳本開發(fā),然后由工程化團隊重構(gòu)為符合線上生產(chǎn)需求的實時服務(wù),還需要由科學(xué)家和工程化團隊進行線上線下一致性校驗,整個流程可能耗費數(shù)月人天成本?;?OpenMLDB,數(shù)據(jù)科學(xué)家使用 SQL 語言定義特征,通過一致性執(zhí)行計劃生成器在程序內(nèi)部保證線上和線下的一致性,并且通過實時 SQL 引擎保證線上服務(wù)的低延遲、高吞吐、高可用。因此,數(shù)據(jù)科學(xué)家使用 SQL 做離線特征開發(fā),當(dāng)驗證滿足業(yè)務(wù)需求后,僅需通過命令一鍵部署到線上服務(wù),實現(xiàn)開發(fā)即上線,帶來數(shù)月人天成本的節(jié)省。

        圖1 面向開發(fā)即上線目標設(shè)計的 OpenMLDB 抽象架構(gòu)
        目前,OpenMLDB已在Akulaku、唯品會等社區(qū)企業(yè)用戶中廣泛使用。其中:

        • Akulakua(出?;ヂ?lián)網(wǎng)金融公司 ) :將 OpenMLDB 應(yīng)用于其金融科技類場景中,不僅提升團隊約一倍人效、節(jié)約數(shù)百萬成本,同時 OpenMLDB 也是相比 Spark、Flink 及其他 MPP 選型中唯一具備線性 scale 能力的方案。

        • 唯品會(中國頭部品牌特賣電商) :將 OpenMLDB 應(yīng)用于其海外業(yè)務(wù)的商品及品牌個性化推薦場景,帶來 10毫秒以內(nèi)的推薦延時以及特征開發(fā)迭代速度60%的提升。

        OpenMLDB官網(wǎng)
        https://openmldb.ai/
        OpenMLDB GitHub主頁
        https://github.com/4paradigm/OpenMLDB
        OpenMLDB文檔:
        https://openmldb.ai/docs/zh/

        主站蜘蛛池模板: 定襄县| 太白县| 苍梧县| 门头沟区| 武定县| 夏津县| 格尔木市| 沅江市| 遂宁市| 永济市| 定远县| 镇平县| 博白县| 台北县| 泰安市| 广东省| 资源县| 灌阳县| 修水县| 嵊泗县| 准格尔旗| 密山市| 兴海县| 恩平市| 扎赉特旗| 东阳市| 永仁县| 靖江市| 怀仁县| 隆回县| 曲周县| 凤凰县| 英超| 桑植县| 策勒县| 蒙城县| 宁远县| 神木县| 平顶山市| 中牟县| 五莲县|