圖/ShutterStock
根據谷歌(GOOG)提供的數據,Gemini Ultra 在大多數學術基準測試上都超越了當前的大型語言模型,包括:
- 在語言理解方面,Gemini Ultra 在 MMLU 基準測試中獲得了 90.0% 的得分,超過了 GPT-4 的 86.4%。
- 在推理方面,Gemini Ultra 在 Big-Bench Hard 基準測試中獲得了 83.6% 的得分,與 GPT-4 的 83.1% 相當。
- 在閱讀理解方面,Gemini Ultra 在 DROP 基準測試中獲得了 82.4% 的得分,超過了 GPT-4 的 80.9%。
- 在常識推理方面,Gemini Ultra 在 HellaSwag 基準測試中獲得了 87.8% 的得分,超過了 GPT-4 的 95.3%。
- 在數學方面,Gemini Ultra 在 GSM8K 基準測試中獲得了 94.4% 的得分,超過了 GPT-4 的 92.0%。
- 在編碼方面,Gemini Ultra 在 HumanEval 基準測試中獲得了 74.4% 的得分,超過了 GPT-4 的 67.0%。
谷歌表示,Gemini 在可擴展性和效率上更勝一籌,特別是在其張量處理單元(TPU)上運行時。它還開發了 AlphaCode 2,Gemini 的一個專門從事編碼的版本,該版本在複雜的程序設計問題上表現出色。
谷歌希望 Gemini 在人工智能助手領域發揮重要作用,與其他科技巨頭競爭。目前通過 Bard 聊天機器人可以使用中等水準的 Gemini Pro,並且谷歌計劃將 Gemini 整合到其產品中,如 Pixel 8 Pro 智能手機、Google 搜索、廣告、Chrome 和 Duet AI。從 12 月 13 日起,開發人員和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 使用 Gemini Pro。
Gemini 在基準測試中領先 GPT-4 是值得注意的,但其實際影響尚待觀察。對於普通用戶而言,Gemini 是否真的能提供更好的體驗,還需要實際使用才能驗證。此外,機器學習專家也質疑這樣的基準測試的實用性,認為它們可能無法反映人工智能模型在現實世界中的實際表現。
無論如何,Gemini 的推出表明,人工智能技術正在不斷發展,大型語言模型的功能正在不斷增強。這對於人工智能助手、語言翻譯和其他領域的應用具有重要意義。