作者pooznn (我~~~是來被打臉滴!!!)
標題[新聞] xAI釋出Grok 4,首度於基準測試中稱冠
時間2025-07-11 22:00:46
1.媒體來源:
ithome
2.記者署名:
陳曉莉
3.完整新聞標題:
xAI釋出Grok 4,首度於基準測試中稱冠
4.完整新聞內文:
由馬斯克(Elon Musk)創辦及領軍的AI新創xAI周四(7/10)發表新一代AI模型Grok 4,
第三方AI基準測試業者Artificial Analysis指出,Grok 4是xAI首款於基準測試中勝出的
模型,凌駕OpenAI、Google、Anthropic Claude與DeepSeek的高階模型。
Grok 4是個懂得思考的推理模型,支援25.6萬個Token的脈絡長度,可輸入文字或圖像,
並生成文字。
在Artificial Analysis的模型排行榜上,
Grok 4的智慧指數(Intelligence Index)為
73,勝過OpenAI o3-pro的71,或是並列70的Google Gemini 2.5 Pro、o3、o4-mini,也
超越DeepSeek R1 0528的68。
除了整體成績之外,Artificial Analysis發現Grok 4不管是在跟程式有關的
LiveCodeBench及SciCode,或是跟數學有關的AIME24與MATH-500等測試,也都處於領先地
位。並在測試高階科學知識的GPQA Diamond基準測試中創下88%的新紀錄。
不只是Artificial Analysis,ARC Prize的模型排行榜顯示Grok 4處於明顯的領先地位。
不過,相較於採用各種基準測試,英國開源工程師Simon Willison有自己的測試方式,他
先要求Grok 4產生一張鵜鶘騎腳踏車的SVG圖檔,再請Grok描述該圖檔,結果Grok便說這
是隻類似鳥類的可愛生物在騎腳踏車。
Willison亦批評Grok 4甚至沒有提供用來記錄開發者、版本、日期、技術與架構等技術細
節,或是模型用途,效能指標,訓練資料或是偏誤與限制的模型卡。還說在Grok 3本周才
登上新聞版面後,xAI應該要更努力來贏得開發者的信任。
此外,Grok 3才因歧視猶太人引起爭議,最新的Grok 4也聲稱以色列是美國的寄生蟲,試
圖控制與扼殺美國。惟目前並不確定該回答是否由某些刻意及有心的提示所生成。
Grok 4每100萬個Token輸入價格為3美元,輸出為15美元,與Claude 4 Sonnet相當,但高
於Gemini 2.5 Pro及o3。其訂閱方案除了既有的、每月30美元的SuperGrok之外,本周新
增了SuperGrok Heavy,可搶先體驗新功能,但每月費用高達300美元。
AI開發者也可透過由Willison建置與負責維護的大型語言模型比價及計價網站來試算模型
費用。
5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:
https://www.ithome.com.tw/news/170016
6.備註:
Grok 4 訓練就用了 25萬顆NVIDIA的H100 台GG發大財!!!
--
※ 發信站: 批踢踢實業坊(pttweb.org.tw), 來自: 111.240.15.83 (臺灣)
※ 文章網址: https://pttweb.org.tw/Gossiping/M.1752242449.A.A10
推 gino0717: 猶點意思123.194.161.186 07/11 22:02
推 renna038766: Grok真的強 只是感覺用的人不多 111.240.109.38 07/11 22:03
推 proprome: 可以做色色圖再叫我 101.10.83.201 07/11 22:04
推 GOOGLEISGOD: 都用就對了 42.70.237.34 07/11 22:09
推 i376ers: 免費仔還沒辦法用 114.24.98.234 07/11 22:13
推 Godmyfriend: 太鬼了 42.73.140.39 07/11 22:16
推 firose: 免費仔想用 118.168.66.173 07/11 22:25
推 aggressorX: 你上色的地方錯了 以色列那段比較重 1.162.42.111 07/11 22:30
→ aggressorX: 要 1.162.42.111 07/11 22:30
推 RisingTackle: 蟈4 106.105.2.49 07/11 22:34