<rp id="8yuke"></rp>

<rp id="8yuke"><nobr id="8yuke"></nobr></rp><address id="8yuke"><dfn id="8yuke"></dfn></address>

^{<blockquote id="8yuke"></blockquote>}

首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網|量子|低空經濟|智能汽車|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網|會展

首頁 >> 人工智能 >> 正文

感謝 DeepSeek：Predibase 發(fā)布全球首個端到端強化微調平臺并開源，支持無服務器和端到端訓練方法

2025年3月20日 10:09 IT之家作者：問舟

昨日晚間，大模型訓練、開發(fā)平臺 Predibase 發(fā)布了一個完全托管、無服務器、端到端的強化微調平臺，也是首個端到端強化微調（RFT）平臺。

Predibase 表示，DeepSeek-R1 的開源在全球 AI 領域產生了巨大影響，讓很多人意識到強化學習微調對訓練大模型的重要性。受此啟發(fā)，他們開發(fā)了這個端到端無服務器強化微調平臺。

與傳統(tǒng)的監(jiān)督式微調相比，RFT 不依賴大量的標注數(shù)據(jù)，而是通過獎勵和自定義函數(shù)來完成持續(xù)地強化學習，同時支持無服務器和端到端訓練方法，從數(shù)據(jù)管理、訓練模型到應用部署可以在同一個平臺完成。用戶只需要一個瀏覽器，設定微調目標、上傳數(shù)據(jù)、就能完成以前非常復雜的大模型微調流程。

為了展示 RFT 的強大，Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微調了一個專門用于將 PyTorch 代碼翻譯為 Triton 的模型 Predibase-T2T-32B-RFT，并根據(jù)其他更大的基礎模型（包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1）對內核正確性進行了基準測試。

與傳統(tǒng)的監(jiān)督式微調方法不同，Predibase-T2T-32B-RFT 利用 RFT 以交互方式調整模型行為，以最少的標記數(shù)據(jù)優(yōu)化下游任務質量。這使其成為專有 LLM 的高性價比、高性能替代方案。

通過 RFT，Predibase 在訓練過程結合了冷啟動監(jiān)督式微調、強化學習和課程學習，并且只使用了十幾個標記數(shù)據(jù)點。

在 Kernelbench 數(shù)據(jù)集上進行的基準測試顯示，Qwen2.5-Coder-32B-instruct 經過強化后，其正確率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍，比 Claude 3.7 Sonnet 高出 4 倍以上，而模型占用的空間卻小了一個數(shù)量級。

附開源地址：

https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在線體驗地址：

https://predibase.com/reinforcement-fine-tuning-playground

編輯：章芳

飛象網版權及免責聲明:
1.本網刊載內容，凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有，未經允許禁止轉載、摘編及鏡像，違者必究。對于經過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發(fā)之日起30日內與本網聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內容核實”、“商務聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。

相關新聞

·浪潮云“分布式智能云”戰(zhàn)略發(fā)布，打通組織智能化落地..	·馬化騰回應AI、機器人、元寶：騰訊AI生態(tài)還在早期階段..
·存在重大漏洞，上海韻達貨運公司被國家郵政局立案調查	·百度回應“開盒”事件：信息并非來自百度，對侵犯用戶..
·騰訊高管解讀Q4財報：DeepSeek結束了“每次LLM更新都需..	·傳小米北京第二座電動汽車工廠要擴建小米暫無回應
·NVIDIA 宣布推出 Cosmos 世界基礎模型和物理 AI 數(shù)據(jù)工..	·首批安全可靠測評結果公布：天翼云、麒麟軟件獲安全可..
·工信部印發(fā)《工業(yè)企業(yè)和園區(qū)數(shù)字化能碳管理中心建設指南》	·中國代表團完成國際電信聯(lián)盟無線電通信部門第六研究組..
·美商務部禁止在政府設備上用DeepSeek？專家：希望美方..	·小米集團：第四季度營收1090.1億元同比增長48.8%
·黃仁勛：AI擴展定律加速發(fā)展計算需求激增	·業(yè)界規(guī)模最大5G-A低空通信專網開啟規(guī)模商用

人物

vivo胡柏山：手機行業(yè)是最典型的新質生產力代表

·中國電信副總經理唐珂：AI引領數(shù)..

·中國信通院湯立波：“5G+工業(yè)互聯(lián)..

·信通院技術與標準研究所葛雨明：..

·信通院兩化所黃偉：2024年先進計..

·信通院閆樹：2024年是數(shù)據(jù)要素發(fā)..

·天翼智庫饒少陽：AI+5G融合助推高..

精彩專題

3·15權益日 | 共筑滿意消費守護信息通信安全防線

聚焦2025全國兩會

2025年世界移動通信大會

低空經濟2025：助力中國經濟騰飛，成就高質量發(fā)展

CCTIME推薦

·全面擁抱智能化時代：打造以AI為..

·中天海纜舉辦成立20周年“新技術..

·中國民企500強榜單，亨通位次再攀..

·初心如炬十年路奮楫篤行啟新程

·成都大唐線纜公司中標國鐵沈白高..

·崔根良受邀參加慶祝中華人民共和..

·連接數(shù)字化美好未來 | 和中國信科..

·勇追光，向新行 | 通鼎集團連續(xù)8..

·西古光通打造5G+智慧工廠，開啟光..

·2024財富500強榜單透視：崛起之路..

·上半年電信業(yè)務收入累計完成8941..

·固定寬帶接入用戶總數(shù)達6.54億戶 ..

·6月戶均移動互聯(lián)網接入流量超18GB..

·三家基礎電信企業(yè)發(fā)展蜂窩物聯(lián)網..

·中國移動用戶總數(shù)突破10億戶

關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖

CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1 電信與信息服務業(yè)務經營許可證080234號京公網安備110105000771號
公司名稱：北京飛象互動文化傳媒有限公司
未經書面許可，禁止轉載、摘編、復制、鏡像

<rp id="rcyib"><nobr id="rcyib"><object id="rcyib"></object></nobr></rp>

<address id="rcyib"><ul id="rcyib"><tr id="rcyib"></tr></ul></address>

<blockquote id="rcyib"></blockquote>