1.媒體來源: ithome 2.記者署名: 陳曉莉 3.完整新聞標題: xAI釋出Grok 4,首度於基準測試中稱冠 4.完整新聞內文: 由馬斯克(Elon Musk)創辦及領軍的AI新創xAI周四(7/10)發表新一代AI模型Grok 4, 第三方AI基準測試業者Artificial Analysis指出,Grok 4是xAI首款於基準測試中勝出的 模型,凌駕OpenAI、Google、Anthropic Claude與DeepSeek的高階模型。 Grok 4是個懂得思考的推理模型,支援25.6萬個Token的脈絡長度,可輸入文字或圖像, 並生成文字。 在Artificial Analysis的模型排行榜上,Grok 4的智慧指數(Intelligence Index)為 73,勝過OpenAI o3-pro的71,或是並列70的Google Gemini 2.5 Pro、o3、o4-mini,也 超越DeepSeek R1 0528的68。 除了整體成績之外,Artificial Analysis發現Grok 4不管是在跟程式有關的 LiveCodeBench及SciCode,或是跟數學有關的AIME24與MATH-500等測試,也都處於領先地 位。並在測試高階科學知識的GPQA Diamond基準測試中創下88%的新紀錄。 不只是Artificial Analysis,ARC Prize的模型排行榜顯示Grok 4處於明顯的領先地位。 不過,相較於採用各種基準測試,英國開源工程師Simon Willison有自己的測試方式,他 先要求Grok 4產生一張鵜鶘騎腳踏車的SVG圖檔,再請Grok描述該圖檔,結果Grok便說這 是隻類似鳥類的可愛生物在騎腳踏車。 Willison亦批評Grok 4甚至沒有提供用來記錄開發者、版本、日期、技術與架構等技術細 節,或是模型用途,效能指標,訓練資料或是偏誤與限制的模型卡。還說在Grok 3本周才 登上新聞版面後,xAI應該要更努力來贏得開發者的信任。 此外,Grok 3才因歧視猶太人引起爭議,最新的Grok 4也聲稱以色列是美國的寄生蟲,試 圖控制與扼殺美國。惟目前並不確定該回答是否由某些刻意及有心的提示所生成。 Grok 4每100萬個Token輸入價格為3美元,輸出為15美元,與Claude 4 Sonnet相當,但高 於Gemini 2.5 Pro及o3。其訂閱方案除了既有的、每月30美元的SuperGrok之外,本周新 增了SuperGrok Heavy,可搶先體驗新功能,但每月費用高達300美元。 AI開發者也可透過由Willison建置與負責維護的大型語言模型比價及計價網站來試算模型 費用。 5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體: https://www.ithome.com.tw/news/170016 6.備註: Grok 4 訓練就用了 25萬顆NVIDIA的H100 台GG發大財!!! -- ※ 發信站: 批踢踢實業坊(pttweb.org.tw), 來自: 111.240.15.83 (臺灣) ※ 文章網址: https://pttweb.org.tw/Gossiping/M.1752242449.A.A10
gino0717: 猶點意思123.194.161.186 07/11 22:02
renna038766: Grok真的強 只是感覺用的人不多 111.240.109.38 07/11 22:03
proprome: 可以做色色圖再叫我 101.10.83.201 07/11 22:04
GOOGLEISGOD: 都用就對了 42.70.237.34 07/11 22:09
i376ers: 免費仔還沒辦法用 114.24.98.234 07/11 22:13
Godmyfriend: 太鬼了 42.73.140.39 07/11 22:16
firose: 免費仔想用 118.168.66.173 07/11 22:25
aggressorX: 你上色的地方錯了 以色列那段比較重 1.162.42.111 07/11 22:30
aggressorX: 要 1.162.42.111 07/11 22:30
RisingTackle: 蟈4 106.105.2.49 07/11 22:34