圖/ShutterStock
蘋果發布了一個名為Ferret的多模式生成式AI模型,該模型結合了計算機視覺和自然語言處理,用於處理視覺內容並進行語言交互。它可以識別圖像中的對象和區域,將文本概念與視覺元素關聯,並利用這種理解進行有關圖像的細緻文本對話。
蘋果正在大力發展對話式AI技術,並投入大量資金和資源,包括建立對話AI團隊和硬件基礎設施。他們已經開發了一個內部聊天機器人,但目前主要用於內部原型開發和基於培訓數據的查詢回答。蘋果預計將在2024年投入超過40億美元用於AI伺服器。
Ferret的優勢在於它能夠檢測圖像中指定區域內的語義對象和概念,而不僅僅是分析整個圖像。這使得它更能夠進行以區域為重點的對話。
Ferret的開源釋放為蘋果帶來了廣泛的優勢,包括允許廣泛的合作,促進創新,並提高透明度。它為蘋果在對話式AI方面的進一步發展奠定了堅實基礎。
未來,Ferret可能會擴展到除圖像和文本之外的其他模式,增強常識推理和改善其實際基礎。它還可能被整合到蘋果的產品中,以提供更好的視覺搜索體驗。蘋果的開源將促進更快的發展,通過廣泛的社區參與來實現對話式AI的進一步提升。