圖/Shutterstock
放大鏡短評
Groq的語言處理單元(LPU)在性能上確實超出了輝達(NVDA)、超微(AMD) 以及英特爾(INTC)等AI 推理晶片領域主要競爭對手,提供了更豐富的供應量,避免了依賴台積電或 SK 海力士等供應商的風險。然而,有評論指出,Groq的整體成本是 NVIDIA GPU 的30倍之多,考量到Groq晶片的記憶體只有230MB,運行實際模型需使用572片晶片,使得總成本達到1144萬美元。相比之下,使用8片H100的系統在性能上可與Groq系統匹敵,但硬體成本只需30萬美元,加上年電費約2.4萬美元,若以三年計算,總運營成本遠低於Groq系統。
新聞資訊
AI晶片新創公司Groq的突破
Groq,一家人工AI晶片片新創公司,公司創辦人Jonathan Ross是前Google資深工程師,也是Google自研AI晶片TPU的設計者之一,最近以其語言處理單元(LPU)在AI領域取得了重大進展。該公司的LPU專為大型語言模型(LLM)如GPT、Llama和Mistral LLMs設計,基於Tensor-Streaming Processor(TSP)架構,展現了令人印象深刻的性能指標,達到750 TOPS(INT8)和188 TeraFLOPS(FP16),並具有320×320融合點乘矩陣乘法和5,120個向量ALU。擁有80 TB/s的帶寬和230 MB的本地SRAM容量,Groq LPU提供了超快的推理速度,每秒可服務高達480個tokens。
LPU性能與市場競爭
Groq LPU在行業中的性能引人注目,能夠以每秒300個tokens的速度服務Llama 2 70B模型,以及每秒750個tokens服務較小的Llama 2 7B模型。根據LLMPerf排行榜,Groq LPU在推理LLM方面超越了基於GPU的雲服務提供商(如輝達),於token吞吐量領先並實現了第二低的延遲。這使Groq成為NVIDIA、AMD和Intel等AI推理硬件市場的直接競爭者。
Groq LPU的市場表現
Groq宣布其LPU系統的推理性能為Llama-2 70B模型翻了一番多,現在每用戶運行速度超過240個tokens每秒。公司在各種活動中展示了其LLM的低延遲性能,並將其硬件部署到阿貢國家實驗室的ALCF AI測試床,為全球研究人員提供AI加速器訪問。
此外,Groq的LPU推理引擎在ArtificialAnalysis.ai進行的首個獨立LLM基準測試中領先,超越了八大雲服務提供商的關鍵性能指標。基準測試結果如此出色,以至於必須調整圖表軸以適應Groq的性能水平。Groq的LPU推理引擎通過Groq API提供,為客戶提供Tokens-as-a-Service,用於實驗和生產的應用。
延伸閱讀:
【美股研究報告】微軟Azure雲端服務加速成長、365 Copilot潛力雄厚,股價將續創新高?
【美股研究報告】超微 2024 年第 1 季財測差強人意,盤後下跌逾 5%,是天助我也還是天要亡我?
【美股研究報告】Google 2023 年第 4 季因廣告收入不及預期而大跌,這是老天掉下來的禮物嗎?
版權聲明
本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訢諸法律途徑。
免責宣言
本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。