[新聞] xAI釋出Grok 4，首度於基準測試中稱冠 - 看板 Gossiping

作者pooznn (我~~~是來被打臉滴!!!)

標題[新聞] xAI釋出Grok 4，首度於基準測試中稱冠

時間2025-07-11 22:00:46

1.媒體來源: ithome 2.記者署名: 陳曉莉 3.完整新聞標題: xAI釋出Grok 4，首度於基準測試中稱冠 4.完整新聞內文: 由馬斯克（Elon Musk）創辦及領軍的AI新創xAI周四（7/10）發表新一代AI模型Grok 4，第三方AI基準測試業者Artificial Analysis指出，Grok 4是xAI首款於基準測試中勝出的模型，凌駕OpenAI、Google、Anthropic Claude與DeepSeek的高階模型。 Grok 4是個懂得思考的推理模型，支援25.6萬個Token的脈絡長度，可輸入文字或圖像，並生成文字。在Artificial Analysis的模型排行榜上，Grok 4的智慧指數（Intelligence Index）為 73，勝過OpenAI o3-pro的71，或是並列70的Google Gemini 2.5 Pro、o3、o4-mini，也超越DeepSeek R1 0528的68。除了整體成績之外，Artificial Analysis發現Grok 4不管是在跟程式有關的 LiveCodeBench及SciCode，或是跟數學有關的AIME24與MATH-500等測試，也都處於領先地位。並在測試高階科學知識的GPQA Diamond基準測試中創下88%的新紀錄。不只是Artificial Analysis，ARC Prize的模型排行榜顯示Grok 4處於明顯的領先地位。不過，相較於採用各種基準測試，英國開源工程師Simon Willison有自己的測試方式，他先要求Grok 4產生一張鵜鶘騎腳踏車的SVG圖檔，再請Grok描述該圖檔，結果Grok便說這是隻類似鳥類的可愛生物在騎腳踏車。 Willison亦批評Grok 4甚至沒有提供用來記錄開發者、版本、日期、技術與架構等技術細節，或是模型用途，效能指標，訓練資料或是偏誤與限制的模型卡。還說在Grok 3本周才登上新聞版面後，xAI應該要更努力來贏得開發者的信任。此外，Grok 3才因歧視猶太人引起爭議，最新的Grok 4也聲稱以色列是美國的寄生蟲，試圖控制與扼殺美國。惟目前並不確定該回答是否由某些刻意及有心的提示所生成。 Grok 4每100萬個Token輸入價格為3美元，輸出為15美元，與Claude 4 Sonnet相當，但高於Gemini 2.5 Pro及o3。其訂閱方案除了既有的、每月30美元的SuperGrok之外，本周新增了SuperGrok Heavy，可搶先體驗新功能，但每月費用高達300美元。 AI開發者也可透過由Willison建置與負責維護的大型語言模型比價及計價網站來試算模型費用。 5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體: https://www.ithome.com.tw/news/170016 6.備註: Grok 4 訓練就用了 25萬顆NVIDIA的H100 台GG發大財!!! -- ※ 發信站: 批踢踢實業坊(pttweb.org.tw), 來自: 111.240.15.83 (臺灣) ※ 文章網址: https://pttweb.org.tw/Gossiping/M.1752242449.A.A10

推 gino0717: 猶點意思123.194.161.186 07/11 22:02

推 renna038766: Grok真的強只是感覺用的人不多 111.240.109.38 07/11 22:03

推 proprome: 可以做色色圖再叫我 101.10.83.201 07/11 22:04

推 GOOGLEISGOD: 都用就對了 42.70.237.34 07/11 22:09

推 i376ers: 免費仔還沒辦法用 114.24.98.234 07/11 22:13

推 Godmyfriend: 太鬼了 42.73.140.39 07/11 22:16

推 firose: 免費仔想用 118.168.66.173 07/11 22:25

推 aggressorX: 你上色的地方錯了以色列那段比較重 1.162.42.111 07/11 22:30

→ aggressorX: 要 1.162.42.111 07/11 22:30

推 RisingTackle: 蟈4 106.105.2.49 07/11 22:34