💙 Gate廣場 #Gate品牌蓝创作挑战# 💙
用Gate品牌藍,描繪你的無限可能!
📅 活動時間
2025年8月11日 — 8月20日
🎯 活動玩法
1. 在 Gate廣場 發布原創內容(圖片 / 視頻 / 手繪 / 數字創作等),需包含 Gate品牌藍 或 Gate Logo 元素。
2. 帖子標題或正文必須包含標籤: #Gate品牌蓝创作挑战# 。
3. 內容中需附上一句對Gate的祝福或寄語(例如:“祝Gate交易所越辦越好,藍色永恆!”)。
4. 內容需爲原創且符合社區規範,禁止抄襲或搬運。
🎁 獎勵設置
一等獎(1名):Gate × Redbull 聯名賽車拼裝套裝
二等獎(3名):Gate品牌衛衣
三等獎(5名):Gate品牌足球
備注:若無法郵寄,將統一替換爲合約體驗券:一等獎 $200、二等獎 $100、三等獎 $50。
🏆 評選規則
官方將綜合以下維度評分:
創意表現(40%):主題契合度、創意獨特性
內容質量(30%):畫面精美度、敘述完整性
社區互動度(30%):點讚、評論及轉發等數據
15B模型單項能力錘得過GPT3.5,開源SQLCoder已上崗
你知道的有關於代碼編輯的大模型工具有哪些呢?
推特用戶@lvwerra 製作了下面這張圖,為大家梳理代碼大家庭的大部分成員。
SQLCoder
作為一個SOTA 大型語言模型, SQLCoder 將自然語言問題轉換為SQL 查詢。在開發者的開源評估框架SQL 中,SQLCoder 的性能明顯優於所有主要的開源模型,並且優於OpenAI 的GPT-3.5。
SQLCoder 是一個15B 參數的LLM,也是StarCoder 的微調實現。 SQLCoder 在手工製作的SQL 查詢上進行了微調,難度依次遞增。在針對單個數據庫模式進行微調時,它的性能可與GPT-4 媲美,甚至更勝一籌。
在過去的三個月裡,SQLCoder 已經部署在了醫療、金融等企業中。這些企業通常擁有敏感數據,他們不希望這些數據從自有服務器中流出,因此利用自託管模型是他們使用LLM 的唯一途徑。
方法
創建數據集
作者創建了一個手工編輯的- 補全對數據集,重點是文本到SQL 任務。該數據集由10 個不同的模式創建,問題難度各不相同。此外,他們還從7 個新模式中創建了一個包含175 個問題的評估數據集。
他們確保在訓練數據集和評估數據集中都選擇了有4-20 張表的複雜模式,這是因為只有1 或2 個表的模式由於關係有限,往往只能進行簡單直接的查詢。
問題分類
數據集創建後,作者將數據集中的每個問題分為易、中、難、特難四類。這種分類通過調整Spider 數據集使用的標準來完成,以衡量SQL 難度。最後,他們將數據集分為兩個不同的子部分,分別是簡單問題和中等問題,以及難題和超難題。
微調
作者分以下兩個階段對模型進行了微調。
首先,僅在簡單和中等難度的問題上對StarCoder 基礎模型進行了微調。
其次,在難題和超難題上對得到的模型(代碼為defog-easy)進行微調,從而得到SQLcoder。
評估
作者在自己創建的自定義數據集上對模型進行了評估。評估SQL 查詢的正確性非常困難,他們曾考慮使用GPT-4 作為評估標準,但遇到了很多問題。過程中他們還意識到,兩個不同的SQL 查詢可能都正確。
對於「誰是最近10 個來自多倫多的用戶」這個問題,以下兩種查詢方式都是正確的。
發布數據集的目的是豐富可用基準,幫助研究人員和工程師更好地了解文本到SQL 生成模型的性能,特別是該模型對返回結果中的無害變化(如列重命名、附加列和重新排序)的穩健性。
性能
在評估框架中,Defog SQLCoder 的表現優於除GPT-4 之外的所有主要模型。特別地,它的性能超過了gpt-3.5-turbo 和text-davinci-003,而這兩個模型的大小是它的10 倍以上。
SQLCoder 的硬件要求
SQLCoder 已在帶權重的A100 40GB GPU 上進行了測試。你還可以在20GB 或更大內存的消費級GPU(如RTX 4090、RTX 3090 以及20GB 或更大內存的蘋果M2 Pro、M2 Max 或M2 Ultra 芯片)上加載該模型的8 位和4 位量化版本。
接下來的工作
未來幾週,作者將對SQLCoder 進行以下更新: