本篇文章你會看到:
開源如何改變世界
首先,開源是指軟體或其他產品的開源代碼、設計和資源被公開,可以自由使用、修改和分享的概念。在開源模式下,開發者和使用者都能參與到的開發和改進過程。這種方式鼓勵創新和合作,並允許廣泛的技術發展和應用。比如著名的Python、Java、JavaScript都是開源的程式碼。且由於開源的公開性,會自然的形成由使用者(例如公司的工程師或學校的教授)組成的開源社區,開源社區日以繼夜的修改與更新開源的程式碼來符合市場需求,造就了一個動態且創新的開發環境。現今Python更是數據科學家和機器學習工程師的首選語言,廣泛用於數據分析、機器學習模型建立和數據視覺化。
AI也可以開源?
是的,就連AI模型都是可以開源的,Meta就發佈了開源,開放商用的大型語言模型 LLaMA,問題是開源真的比較好嗎?大家都知道目前火熱的大型語言模型需要大量的資料以及電腦算力來訓練,使得開源「似乎」不是一個好選擇,也因此幾乎獨家佔有算力Nvidia(NVDA)以及提供訓練平台、大型語言模型的微軟(MSFT)、谷歌(GOOG)和喧囂塵上的OpenAI才會如此受到市場青睞。不過,究竟需要多少算力,多少晶片才能訓練出一個模型呢?這必須從大型語言模型與他們的產地說起。
LLMs(大型語言模型)與他們的產地
LLMs是如何訓練出來的呢?實際上,它們並不複雜,目前的LLMs模型並沒有真正意義上的智慧,但效果已經非常驚人,我們可以將之粗略的分為兩步驟:
- Pre-Training(預訓練):使模型記住每個詞彙之間的關聯性
- Fine-Tuning(微調):使模型記住如何回答問題
也就是說,模型並不會真的了解字詞的意思,只是透過字詞間的相關性去預測下一個單字是甚麼而已,且訓練成本所費不貲。以Meta發布的LLaMA2 70B模型為例,它本質上就是兩個簡單的文件:一個存儲著700億個參數、大約140GB的文件,另一個則是約500行的程式碼,用以運行這個「人工智慧」模型。但是,若要從零開始訓練一個模型,也就是創造出儲存參數的文件則相當困難。從上在整理出的大型語言模型訓練過程摘要,可以發現其在兩階段都需要非常大量的GPU以及資料,接著我們仔細分析每一步驟的細節給想要看更多技術乾貨的讀者,不感興趣的讀者可以跳至另一種微調方法LoRA大大降低GPU需求,開源模型可能成為主流?
模型訓練的第一步, Pre-Training(預訓練)
由於OpenAI並沒有完全開源,我們接下來採用由Meta(META)開發的完全開源的LLaMA作說明。首先,LLMs的核心價值並不在於那500行程式碼,而是在於如何獲得這些參數。以Meta的LLaMA2 70B為例,其首先需要約10TB的文本資料。這個模型會在這些文本中探索字詞間的關聯,並以模型參數的形式將這些關聯性存儲起來。換言之,LLMs本質上是一個擁有700億參數的方程式,當你給它一個單詞時,它會計算每個字出現在該單詞後的機率,並生成機率最高的字作為下一個。但是將10TB 的文本「壓縮」成 170 GB 的參數相當困難,大概需要在 6000 個 GPU 上訓練十幾天,且如果是其他更先進的模型如ChatGPT4甚至需要幾十倍甚至幾百倍的算力。這個過程非常類似於壓縮,唯一的不同是原始的檔案並沒有被「完整」的儲存下來。
LLMs核心功能,文字接龍
正如前所述,LLMs的原始功能是預測下一個單字。例如當輸入為「天氣很好,我們去…」,該模型可能會產出「散步」,因為「散步」是跟隨這個句子的最有可能的下一個詞,因此LLMs也被稱作生成式AI。這種預測能力不僅限於單字,還涉及將與上下文相關的背景知識整合到參數中。例如,當提到「周杰倫」時,就會有更高機率產生與之相關的關鍵字,如「1979年1月18日」(周杰倫生日)或「青蜂俠」。LLMs通過不斷重複這個過程來完整地產出一個句子。但由於其主要的輸出是基於字詞間的關聯性,因此即使它知道網路書店中的ISBN(國際標準書號)後面通常會跟隨數字,但它生成的內容可能更像是隨機的亂碼,而不是真的有意義的ISBN碼。且我們雖然理解LLMs內的每一個數學運算,但這些參數的集體功能仍是個謎。
資料量與訓練量,模型品質兩大關鍵
預訓練模型的效能與資料量和訓練深度緊密相關,而未來的晶片運算能力將是LLMs模型準確度的關鍵。模型本身的設計固然重要,但根據大型語言模型的新縮放法則,數據量和運算資源的投入越多,模型的準確性通常越高。深度思考公司(DeepMind)的研究指出,許多現有模型擁有的數據遠超其模型所投入的訓練資源,意味著未來晶片的運算能力將直接推動LLMs模型的進步。
模型訓練的第二步,Fine-Tuning(微調)
然而,我們的目標是創建一個能夠針對問題提供回答或生成相關內容的AI,而非僅會產生無關緊要的話語的AI。為此,我們需要高質量的數據集來指導LLMs如何針對特定問題或任務進行回應。其中一種常見的方法是RLHF(基於人類反饋的強化學習),許多公司在這一階段會雇用大量人員來回答問題,並將這些回答用作訓練LLMs的數據。與預訓練相比,微調階段所需的數據量較小,但更加注重數據質量,也因此需要較高的資料成本。
另一種微調方法LoRA大大降低GPU需求,開源模型可能成為主流
今年三月,Facebook(Meta)的未經微調(針對特定問題訓練)的大型語言模型LLaMA被「洩露」,儘管沒有任何說明文件,但網民們在短短一個月內就成功地應用這個未經微調的預訓練模型並進行了微調。根據Google內部的一份備忘錄指出,開源社群的研究人員僅使用免費的線上資源,已經取得與頂尖私有模型相當的成果。這歸功於開源社群發現,使用LoRA進行特定任務的訓練可以大幅減少成本,並在特定領域展現更卓越的性能。以前需要整個實驗室才能完成的LLMs微調如今僅需一人、約100美元的成本,在一台性能較好的筆記型電腦上就能完成,完全可以被開源社群接受的成本。因此,我們發現開源模型帶來的優勢可能最終將對現有像OpenAI這樣的LLMs商業模式造成巨大的挑戰。
低微調(LoRA)與傳統微調(full-parameter fine-tuning)之間的差異引起了廣泛關注
最近Meta又發布了其開源且可用於商業用途的LLMs模型LLaMa V2,包含未經微調以及已經過Meta微調的版本,還與微軟(MSFT)的Azure合作為用戶提供了更便利的訓練平台,引發了熱烈的討論。LLaMa V2在某些方面甚至超越了ChatGPT-4。然而,尚未見到它能完全取代GPT-4等大型模型在商業應用上的地位。究竟傳統微調(full-parameter fine-tuning) 與低微調(LoRA)究的差別有多大呢?根據anyscale上的實測,可以發現在特定領域使用低微調(LoRA)僅會使準確率下降約2~3%,而在與預訓練使用的資料較相似的資料集(例如ViGGO)上,甚至可以獲得比GPT-4更佳的表現。但在數學推理等與預訓練資料關聯較小的任務上(例如GSM8k),其效果則不如GPT-4。
開源模型,以古為鑑可以知興替
首先,開源過去就曾帶來開發的優勢。正如過去開源的Stable Diffusion與由OpenAI所開發的DALL·E之間相互競爭,自2022年八月stable diffusion開源以來,引起了大量的使用者開始針對該模型調教與分享成果,使其成效大幅超越DALL·E,是不是有點像現在由Meta開源的的LLaMA2與OpenAI的私有模型ChatGPT4相當類似呢?尤其使用LoRA的成本約只有100美元,幾乎任何有想法的人都可以自己訓練自己的模型,而且最好的模型已經在某些層面上與ChatGPT無法區分。因此專注於最頂尖的模型因此未必是最經濟的策略。
開源模型應用幾乎不會被監管,可以色色了
進一步分析,雖然開源的成果可以被任何人享用,包含OpenAI,但開源模型的使用者不會受到社會大眾價值觀以及法規的要求,因此可以被用於處裡許多不被社會接受的生產行為,例如色情內容,即使約有三成的網路流量由色情內容構成,但像OpenAI這樣的公司是不可能容許使用者使用該公司的設備來做做這些事,但另一方面,開源的模型可以在個人電腦上運作,因此不會受到監管。
開源的成本就是比較低,網民就是比較有創意
再者,如果有免費或相當低價的開源模型存在,企業又何苦支付高昂的成本給OpenAI、Google這樣的大公司呢?況且現今整個網際網路到程式語言大多以開源為主,就連用以開發ChatGPT的模型Transformer都是Google brain於2017年開源發佈的,殊難想像有一家獨霸AI模型而無人能出其右的狀況能持續多久。
開源固然討喜,專業機構仍無法被取代,掌握生態系才是重點
在未來的開源模式下,LLMs可能更適合針對各企業進行優化,甚至任何企業都可以去針對自己的需求去訓練、部屬模型,因此擁有開源模型生態系,也就是創造了開源社群並有辦法持續從中獲利的公司才會在這場戰爭中勝出。不過,雖然會出現新的微調方法以提升模型的推理能力,但這些方法不太可能取代現有LLMs公司在預訓練方面的角色,也無法降低預訓練所需的計算力。因此,CMoney研究團隊認為真正的勝利者是那些能夠成功結合開源創新與專業機構的穩定性和資源的企業。
蘋果、谷歌、微軟各個不落人後,積極搶佔AI生態系
這些企業通過建立和維護生態系統,既能從開源社區的活力中受益,又能確保產品和服務的質量和持續性。例如過去蘋果(AAPL)成功開發了自己的iOS生態系,Google(GOOG)的Android操作系統也是一個成功的例子。不管是iOS或Android,都得到了安全性、兼容性和創新方面的支持。這種結合開源創新與企業支持的模式,為整個技術領域設定了發展的方向。過去的Facebook也是個成功的例子,而現在的Meta以及Google也試圖透過一樣的策略,例如Meta提供開源且可以商用的LLaMA2以及Google的Project Open Se Cura,都試圖發展自己的AI生態系,就連微軟(MSFT)也是雙邊下注,一方面提供OpenAI資金,另一方面又提供Meta即其LLMs訓練的平台,事實上連我國中研院都以LLaMA2為本開發了專門為繁體中文優化的大型語言模型。蘋果也不例外,與PyTorch合作,使蘋果mac book在運作相關的AI軟體時效率提升將近十倍。
簡言之,賣鏟子還不給帶回家是不是怪怪的
這些趨勢表明,掌握和維護生態系統的重要性在當前的技術環境中愈發重要,然而OpenAI受限於非營利企業的限制,恐怕難以與其他企業競爭,將會受限於提供預訓練模型供市場使用的角色。簡而言之,同樣是賣鏟子的公司,開源就好像在說我的鏟子你可以帶回家用,但私有模型卻要求客戶必須把要挖的東西帶過來我幫你挖,因此CMoney研究團隊因此認為未來投資人應關注新的生態系會如何被建立,而非模型之間能力的差距。
我們總結了市場上開源與私有兩大陣營目前參與者,若想要進一步了解三者間競合關係請持續關注美股放大鏡
開源與私有兩大陣營參與者整理
特點/組織 | IBM 和 Meta工同創立的 AI 聯盟 | OpenAI | |
開源程度 | 重視開源,與超過50家組織合作推進負責任的AI創新,強調科學嚴謹、信任、安全和經濟競爭力。 | 有些AI工具和模型開源,但通常保留其最先進模型的專有權。 | 部分開源,例如GPT-2是開源的,但GPT-3和GPT-4等新版本不完全開源。 |
市場 影響力 | 目前市場上最有潛力的參與者,聯盟成員包括Cornell University、NASA、Intel、AMD等多個行業和學術機構,但在消費市場上的影響力可能不及Google和OpenAI。 | 目前握有AI市場中生態系最成熟的企業,旗下搜尋引擎google及手機pixel都高度結合LLMs及其他AI功能,其於2017年發佈的Transformer model更是現在最強模型ChatGPT的基礎 | 與Microsoft的合作使其在消費者市場中具有顯著影響力,也是市面上最常見的AI模型,GPT-3和GPT-4廣受關注。 |
AI倫理 和安全 | AI聯盟專注於負責任的AI發展,重視公開政策和倡議,以及安全和信任。 | 積極參與AI倫理和安全的討論,但其封閉模型可能限制了透明度和審查。 | 雖然對AI倫理和安全有所關注,但在開放性和透明度方面受到一些批評 |
創新方向 | 通過AI聯盟支持開放創新,開源科技和研究,並注重安全和信任。 | 專注於創新和領先的技術開發,但更傾向於封閉系統和專有技術。 | 在創新和功能擴展方面領先,但在保持專有技術和控制使用條款方面較為嚴格。 |
主要模型整理
特徵/模型 | LLaMA 2 | Gemini | GPT-4 |
開發者 | Meta AI | Google DeepMind | OpenAI |
模型類型 | 大型語言模型 | 多模態大型語言模型 | 大型語言模型 |
開源程度 | 模型與訓練資料公開且可商用 | GitHub上有部分程式碼 | 部分版本的模型參數和工具開源 |
主要功能 | 高階自然語言處理和生成,因為完全開源以及幾乎完全商用所以受到網民關注與喜愛 | 文本、圖像、影片和聲音的理解和整合,具Google官方數據其Gemini Ultra表現優於GPT4 | 高階自然語言處理和生成,同時資源影像、聲音的辨識與輸出,為目前市面上已公開的LLM模型中最強的 |
延伸閱讀:
【美股研究報告】Google 23Q3 廣告收入嘗試扛起大旗,惟雲端業務差強人意,盤後下跌近 6%,是機會還是危機?
【美股研究報告】微軟Azure雲端服務需求展望續強、365 Copilot即將推出,進場時機出現了嗎?
【美股研究報告】無懼中國營收下滑烏雲!輝達Nvidia FY2025獲利可望一飛衝天!
版權聲明
本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訢諸法律途徑。
免責宣言
本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。