游客發(fā)表
![]()
這項(xiàng)由香港中文大學(xué)深圳校區(qū)的朱晨皓、電子科技大學(xué)的高校陶美菱、華南農(nóng)業(yè)大學(xué)的批評(píng)丁東藝,以及OPPO公司的聯(lián)合王天楠、蔣羽晨、高校周王春樹等研究者共同完成的批評(píng)研究,於2025年10月發(fā)表在計(jì)算機(jī)科學(xué)頂級(jí)會(huì)議論文集中。聯(lián)合感興趣的高校讀者可以通過論文編號(hào)arXiv:2510.18849查詢完整研究?jī)?nèi)容。 當(dāng)你使用智能助手時(shí),批評(píng)是聯(lián)合否經(jīng)常遇到這樣的尷尬:明明告訴了它你的職業(yè)、興趣和偏好,高校但它的批評(píng)回答總是顯得生硬死板,就像在背書一樣?聯(lián)合比如你說自己是個(gè)程序員,它就硬生生地在每句話裏都要提到"代碼"和"編程",高校讓人感覺非常不自然。批評(píng)這就是目前大語言模型在個(gè)性化服務(wù)方麵麵臨的核心問題:它們雖然能記住你的信息,但卻不知道如何自然、恰當(dāng)?shù)剡\(yùn)用這些信息。 就像一個(gè)剛學(xué)會(huì)做菜的新手,雖然知道菜譜上寫著"放鹽調(diào)味",但總是要麼忘記放鹽,要麼放得太多太鹹,很難掌握恰到好處的分寸。傳統(tǒng)的AI訓(xùn)練方法也麵臨著類似的困境:要麼完全忽視用戶的個(gè)人特征,給出千篇一律的答案;要麼機(jī)械地堆砌個(gè)人信息,讓回答顯得極其不自然。 研究團(tuán)隊(duì)深入分析了現(xiàn)有訓(xùn)練方法的局限性後發(fā)現(xiàn),問題的根源在於傳統(tǒng)的獎(jiǎng)勵(lì)機(jī)製過於簡(jiǎn)單粗暴。現(xiàn)有的方法就像隻用"好吃"或"不好吃"來評(píng)價(jià)一道菜,無法告訴廚師到底哪裏做得不對(duì),應(yīng)該如何改進(jìn)。更糟糕的是,這種簡(jiǎn)單的評(píng)價(jià)係統(tǒng)很容易被"鑽空子":AI可能會(huì)學(xué)會(huì)通過增加無關(guān)的廢話或者機(jī)械地重複用戶信息來獲得更高的評(píng)分,而不是真正提升回答的質(zhì)量。 為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)全新的訓(xùn)練框架,他們稱之為"批評(píng)-修改-編輯"強(qiáng)化學(xué)習(xí)。這個(gè)框架的核心思想非常直觀:不僅要告訴AI"這個(gè)回答不夠好",更要具體地指出"哪裏不好,應(yīng)該怎麼改",然後讓AI基於這些具體建議來修改自己的回答。 **一、從"打分"到"指導(dǎo)":個(gè)性化生成獎(jiǎng)勵(lì)模型的革新** 傳統(tǒng)的AI訓(xùn)練就像一個(gè)隻會(huì)說"對(duì)"或"錯(cuò)"的嚴(yán)厲老師,而研究團(tuán)隊(duì)設(shè)計(jì)的新係統(tǒng)更像一位耐心的導(dǎo)師,不僅會(huì)指出問題,還會(huì)詳細(xì)解釋問題所在並提供改進(jìn)建議。 這個(gè)被稱為"個(gè)性化生成獎(jiǎng)勵(lì)模型"的係統(tǒng),會(huì)從三個(gè)維度來評(píng)價(jià)AI的回答:有用性、個(gè)性化程度和自然性。有用性關(guān)注的是回答是否真正解決了用戶的問題,就像判斷一份菜譜是否真的能做出美味的菜肴。個(gè)性化程度考察的是AI是否恰當(dāng)?shù)剡\(yùn)用了用戶的個(gè)人信息,既不能完全忽視,也不能生硬地強(qiáng)行插入。自然性則評(píng)估回答是否流暢自然,避免那種明顯的"機(jī)器腔"。 更重要的是,這個(gè)係統(tǒng)不隻是給出分?jǐn)?shù),還會(huì)提供詳細(xì)的文字批評(píng)和改進(jìn)建議。比如,當(dāng)AI給一個(gè)工程師用戶的回答過於技術(shù)化時(shí),係統(tǒng)會(huì)具體指出:"這個(gè)回答雖然專業(yè),但過於複雜,普通場(chǎng)景下可以用更簡(jiǎn)單的表達(dá)方式。建議減少專業(yè)術(shù)語,增加日常語言的使用。" 研究團(tuán)隊(duì)在PersonaFeedback基準(zhǔn)測(cè)試上驗(yàn)證了這個(gè)新係統(tǒng)的效果。結(jié)果顯示,采用新的生成獎(jiǎng)勵(lì)模型的AI在各個(gè)難度等級(jí)上都顯著優(yōu)於傳統(tǒng)方法,特別是在處理複雜個(gè)性化需求方麵表現(xiàn)突出。 **二、"自我修改"機(jī)製:讓AI學(xué)會(huì)反思和改進(jìn)** 僅僅有好的評(píng)價(jià)標(biāo)準(zhǔn)還不夠,關(guān)鍵是要讓AI能夠基於這些反饋真正改進(jìn)自己的表現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的"批評(píng)-修改-編輯"機(jī)製,讓AI能夠像人類一樣進(jìn)行自我反思和改進(jìn)。 整個(gè)過程就像一個(gè)寫作練習(xí):首先,AI根據(jù)用戶的問題和個(gè)人信息生成一個(gè)初始回答。然後,生成獎(jiǎng)勵(lì)模型會(huì)像一位編輯一樣,仔細(xì)閱讀這個(gè)回答並提供詳細(xì)的修改建議。接著,AI會(huì)根據(jù)這些建議對(duì)自己的回答進(jìn)行修改和完善。 這種方法的優(yōu)勢(shì)在於它模擬了人類學(xué)習(xí)的自然過程。當(dāng)我們寫文章或者準(zhǔn)備演講時(shí),往往也是先寫出初稿,然後根據(jù)他人的建議或者自己的反思進(jìn)行修改完善。AI通過這種方式能夠?qū)W會(huì)更細(xì)致、更有針對(duì)性的改進(jìn)技巧。 研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的采樣策略來選擇哪些修改後的回答用於訓(xùn)練。隨機(jī)采樣就像從所有修改版本中隨機(jī)選擇一些;獎(jiǎng)勵(lì)排序采樣會(huì)優(yōu)先選擇評(píng)分最高的修改版本;條件采樣則隻選擇那些確實(shí)比原版本有所改進(jìn)的修改版本。 有趣的是,實(shí)驗(yàn)結(jié)果顯示隨機(jī)采樣的效果最好。這個(gè)發(fā)現(xiàn)提醒我們,在AI訓(xùn)練中,不好的例子同樣重要,它們能幫助AI學(xué)會(huì)區(qū)分什麼是應(yīng)該避免的,什麼是值得追求的。 **三、避免"投機(jī)取巧":混合策略確保訓(xùn)練穩(wěn)定** 在AI訓(xùn)練過程中,有一個(gè)常見的問題叫做"分布偏移"。簡(jiǎn)單來說,就是AI在訓(xùn)練過程中可能會(huì)逐漸偏離正確的方向,學(xué)會(huì)一些"投機(jī)取巧"的方法來獲得高分,而不是真正提升能力。 為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)混合的訓(xùn)練策略。他們將訓(xùn)練數(shù)據(jù)分為兩類:原始回答和修改後的回答,然後針對(duì)這兩類數(shù)據(jù)使用不同的處理方法。對(duì)於原始回答,使用標(biāo)準(zhǔn)的訓(xùn)練方法;對(duì)於修改後的回答,則使用特殊的"離政策"訓(xùn)練方法,並通過限製重要性權(quán)重來確保訓(xùn)練過程的穩(wěn)定性。 這種方法就像在教學(xué)中既要有正麵的示範(fàn),也要有對(duì)比的分析。通過同時(shí)學(xué)習(xí)"什麼是好的"和"如何從不好變好",AI能夠獲得更全麵、更穩(wěn)定的訓(xùn)練效果。 **四、實(shí)驗(yàn)驗(yàn)證:全麵超越傳統(tǒng)方法** 研究團(tuán)隊(duì)在三個(gè)權(quán)威的個(gè)性化評(píng)測(cè)基準(zhǔn)上進(jìn)行了全麵的實(shí)驗(yàn)驗(yàn)證:PersonaFeedback、AlpacaEval和PersonaMem。為了確保評(píng)測(cè)的公平性,他們采用了長(zhǎng)度控製的評(píng)估方法,避免了AI通過簡(jiǎn)單地增加回答長(zhǎng)度來獲得更高評(píng)分的問題。 實(shí)驗(yàn)結(jié)果令人印象深刻。采用新框架訓(xùn)練的7B參數(shù)模型在PersonaFeedback測(cè)試中的勝率從傳統(tǒng)PPO方法的53.5%提升到了64.1%,提升幅度超過10個(gè)百分點(diǎn)。更大的14B模型表現(xiàn)更加出色,勝率達(dá)到了76.8%,甚至超過了GPT-4.1的表現(xiàn)。 特別值得注意的是,這種提升在不同類型的問題上都是一致的,無論是專業(yè)領(lǐng)域的具體問題還是日常生活的一般詢問,新方法都展現(xiàn)出了明顯的優(yōu)勢(shì)。 研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,驗(yàn)證了框架中每個(gè)組件的重要性。他們發(fā)現(xiàn),僅使用生成獎(jiǎng)勵(lì)模型就能帶來顯著改進(jìn),但結(jié)合批評(píng)-修改-編輯機(jī)製後效果更加突出。同時(shí),傳統(tǒng)的Bradley-Terry獎(jiǎng)勵(lì)模型容易導(dǎo)致AI生成過長(zhǎng)、過於囉嗦的回答,而新的生成獎(jiǎng)勵(lì)模型能夠有效避免這個(gè)問題。 **五、技術(shù)細(xì)節(jié):從理論到實(shí)踐的完整實(shí)現(xiàn)** 在具體的技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)基於Qwen2.5係列模型進(jìn)行了實(shí)驗(yàn),涵蓋了7B、14B和32B等不同規(guī)模。他們發(fā)現(xiàn),更大規(guī)模的生成獎(jiǎng)勵(lì)模型能夠提供更準(zhǔn)確、更有針對(duì)性的反饋,從而帶來更好的訓(xùn)練效果。 訓(xùn)練過程采用了精心設(shè)計(jì)的權(quán)重分配策略:有用性占35%、個(gè)性化程度占40%、自然性占25%。這個(gè)權(quán)重分配反映了個(gè)性化應(yīng)用中各個(gè)方麵的相對(duì)重要性,既要確保回答的實(shí)用性,更要突出個(gè)性化的特色,同時(shí)保持表達(dá)的自然流暢。 在評(píng)估方法上,研究團(tuán)隊(duì)采用了GPT-4.1作為評(píng)判標(biāo)準(zhǔn),並通過人工評(píng)估驗(yàn)證了這種評(píng)估方法的可靠性。他們招募了三位專家進(jìn)行獨(dú)立評(píng)估,結(jié)果顯示AI評(píng)估與人工評(píng)估的一致性達(dá)到了71%,證明了評(píng)估方法的有效性。 **六、實(shí)際應(yīng)用案例:從理論到實(shí)踐的轉(zhuǎn)化** 為了展示新方法的實(shí)際效果,研究團(tuán)隊(duì)提供了一個(gè)生動(dòng)的應(yīng)用案例。假設(shè)一個(gè)名叫小玲的用戶詢問上海機(jī)器人展覽期間推薦的科技感餐廳。傳統(tǒng)AI可能會(huì)生成這樣的回答:"小玲,基於您作為浙江機(jī)器人公司研發(fā)經(jīng)理的角色,我推薦...另外,由於您偏愛在會(huì)展中心500米內(nèi)住宿並駕駛特斯拉Model Y,我還推薦...注:此回答充分考慮了您的專業(yè)背景、飲食偏好、住宿習(xí)慣和科技興趣。" 這種回答雖然包含了用戶信息,但顯得極其生硬,就像在背誦用戶檔案一樣。而經(jīng)過新框架訓(xùn)練的AI會(huì)提供更自然的建議:"推薦兩個(gè)會(huì)展中心附近的選擇:國(guó)際酒店37層的'悅庭軒'主打精致日式輕食套餐,落地窗可以俯瞰黃浦江夜景。萬豪酒店的'元素'全日製餐廳專注輕食,有沙拉吧和優(yōu)質(zhì)蛋白選擇,設(shè)計(jì)融入了工業(yè)風(fēng)科技元素。兩家都在展館步行5分鍾內(nèi),建議19:30-20:00預(yù)訂避開用餐高峰。" 從這個(gè)對(duì)比可以清楚地看出,新方法生成的回答不僅更加自然流暢,而且提供了更多實(shí)用的具體信息,真正做到了"個(gè)性化而不機(jī)械化"。 說到底,這項(xiàng)研究解決的是一個(gè)我們?cè)谌粘I钪薪?jīng)常遇到的問題:如何讓AI真正理解並恰當(dāng)?shù)剡\(yùn)用我們的個(gè)人信息,而不是簡(jiǎn)單地重複或機(jī)械地插入這些信息。這項(xiàng)技術(shù)的成功意味著未來的AI助手將能夠提供更加貼心、自然的個(gè)性化服務(wù),就像一個(gè)真正了解你的朋友一樣。 當(dāng)然,這項(xiàng)技術(shù)目前還主要在研究階段,要真正普及到我們的日常應(yīng)用中還需要一些時(shí)間。但研究團(tuán)隊(duì)已經(jīng)證明了這個(gè)方向的可行性和有效性,為未來更智能、更貼心的AI服務(wù)奠定了重要基礎(chǔ)。對(duì)於普通用戶來說,這意味著我們可能很快就能享受到真正"懂你"的AI服務(wù),而不再需要忍受那些生硬死板的機(jī)器式回答。 這項(xiàng)研究的另一個(gè)重要意義在於,它為AI的訓(xùn)練和優(yōu)化提供了新的思路。傳統(tǒng)的方法更多地依賴大量數(shù)據(jù)和簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào),而這項(xiàng)研究展示了如何通過更精細(xì)、更有針對(duì)性的反饋機(jī)製來提升AI的能力。這種思路不僅適用於個(gè)性化服務(wù),也可能在其他AI應(yīng)用領(lǐng)域產(chǎn)生重要影響。 Q&A Q1:批評(píng)-修改-編輯強(qiáng)化學(xué)習(xí)框架是什麼? A:這是OPPO聯(lián)合多所高校開發(fā)的AI訓(xùn)練新方法,不隻是給AI的回答打分,還會(huì)提供具體的修改建議,讓AI能夠根據(jù)反饋改進(jìn)自己的答案,就像有一個(gè)耐心的老師在指導(dǎo)一樣。 Q2:這個(gè)新方法能解決什麼實(shí)際問題? A:主要解決AI個(gè)性化服務(wù)不自然的問題。傳統(tǒng)AI雖然知道用戶信息,但總是機(jī)械地堆砌,顯得很生硬。新方法讓AI學(xué)會(huì)恰當(dāng)、自然地運(yùn)用個(gè)人信息,提供真正貼心的個(gè)性化服務(wù)。 Q3:這項(xiàng)技術(shù)什麼時(shí)候能在日常應(yīng)用中使用? A:目前還處?kù)堆芯侩A段,但實(shí)驗(yàn)結(jié)果很有希望。研究團(tuán)隊(duì)的模型已經(jīng)在多個(gè)測(cè)試中超過了GPT-4.1的表現(xiàn),相信不久的將來就能在實(shí)際產(chǎn)品中看到這項(xiàng)技術(shù)的應(yīng)用。
相關(guān)內(nèi)容
隨機(jī)閱讀
熱門排行
友情鏈接