通過數(shù)據(jù)、算法等技術(shù)創(chuàng)新,使得小參數(shù)垂類模型實現(xiàn)性能大幅提升。

網(wǎng)易有道:小參數(shù)垂類模型實現(xiàn)翻譯質(zhì)量持續(xù)提升

2025-03-11 19:10:59發(fā)布     來源:多知    作者:馮瑋  

  多知3月11日消息,網(wǎng)易有道在公眾號推文宣布,已完成翻譯底層技術(shù)迭代,基于自主研發(fā)的子曰翻譯大模型2.0,翻譯質(zhì)量在與國內(nèi)外通用大模型的對比測試中展現(xiàn)了不錯的成績。

  此次的突破,也標(biāo)志著網(wǎng)易有道子曰大模型在專業(yè)領(lǐng)域取得實質(zhì)性進展,通過數(shù)據(jù)、算法等技術(shù)創(chuàng)新,使得小參數(shù)垂類模型實現(xiàn)性能大幅提升。

  據(jù)了解,搭載全新大模型的翻譯已在有道詞典、有道翻譯及有道翻譯官內(nèi)上線,提供標(biāo)準(zhǔn)模型、高級模型兩種不同參數(shù)選擇,用戶可免費使用全新的AI翻譯功能。

  同時,有道詞典筆X7系列也已升級為最新的翻譯大模型,其余型號將陸續(xù)更新。

  據(jù)官方介紹,經(jīng)歷了10個月的技術(shù)更迭,子曰翻譯大模型2.0從數(shù)據(jù)、算法、評估三個層面進行技術(shù)突破,最終以14B小參數(shù)垂類模型實現(xiàn)高水準(zhǔn)的翻譯性能。

截屏2025-03-11 下午7.14.49.png

  這也體現(xiàn)出有道在教育大模型發(fā)展上的垂直專業(yè)能力,驗證了“場景+數(shù)據(jù)”的護城河。

  其中:

  在數(shù)據(jù)層面,有道收集并嚴格清洗了高質(zhì)量的翻譯語料數(shù)據(jù),由英語專八認證人員及職業(yè)譯員進行精細化人工標(biāo)注,使得模型擁有優(yōu)質(zhì)數(shù)據(jù)資源庫,增強其在多樣化翻譯場景的應(yīng)對能力。

  在算法層面,有道以子曰大模型為基礎(chǔ),進行二次預(yù)訓(xùn)練,進一步優(yōu)化更具專業(yè)性與針對性的翻譯基座大模型,結(jié)合大模型蒸餾技術(shù)、大模型融合技術(shù)、Online DPO技術(shù)等多項手段,有效避免了大模型的災(zāi)難性遺忘問題,并在運行效率、準(zhǔn)確性、流暢性等翻譯性能上進行大幅提升。

  在評估層面,借助翻譯數(shù)據(jù)沉淀,有道自主研發(fā)了翻譯評估模型Reward Model,為子曰翻譯大模型的性能評估提供可靠的量化依據(jù)及完善的人工評估方案,多維度對模型的翻譯結(jié)果進行評估和分析。

  “通用大模型比的是參數(shù)大、算力強,但翻譯這件事,參數(shù)堆不出專業(yè)度;當(dāng)通用大模型競逐參數(shù)規(guī)模時,我們還是更相信垂類模型的未來價值——用專業(yè)的垂直應(yīng)用真正解決專業(yè)場景的痛點,這也正是我們持續(xù)努力和進化的方向。”網(wǎng)易有道相關(guān)負責(zé)人表示。