❖ Browsing media by trc
[更新:因上游(詞庫小組)的網頁關閉了,唐鳳的備份網頁也轉為不公開了。]
連假前看到中研院資訊所詞庫小組 (CKIP) 釋出了 CKIP-Llama-2-7b 繁體中文大型語言模型,覺得很興奮。
今天上網卻發現在 GitHub 跟 Hugging Face 網站上,這語言模型的網頁已離線了。覺得很失落。
將研究成果開放給公眾使用檢視,是好事也需受到鼓勵。政治、文化、歷史的敏感題,沒人可以面面俱到,考一百分(也跟您在海峽左岸或右岸應答有關)。
大型語言模型基本上是機器鸚鵡學人講話,不可能是無上真知,再怎麼調校都是掛一漏萬,定有胡言亂語的時候。何況機器不知道它是在對誰說話。
這是 AI Literacy 的議題,跟「數位素養」一樣,需要眾人熟悉瞭解。在人工智慧風潮的時代,大家要能思辨使用數位工具。不用無限上綱。
目前中研院詞庫小組的語言模型資訊,還可以從 唐鳳 在 Hugging Face 上的備份跟延伸網頁看到(註:已轉為不公開):
https://huggingface.co/audreyt/CKIP-Llama-2-7b-chat-GGUF
模型同時也轉成 GGUF 格式,可以在個人電腦上面跑,不必依靠外部提供的運算服務。可具數位韌性,我想這應該是唐部長在意的地方。CKIP-Llama-2-7b 模型使用單片 GPU 顯卡(至少需有 12G 記憶體)就可以跑了,這是它的特色優點。
目前幾個台灣華語語境的大型語言模型工作,都疊加在 Meta 公司的 Llama 2 模型之上,再加訓練調整。從 Llama 2 技術論文在安全性 (Safety) 的說明:
https://arxiv.org/abs/2307.09288
... No additional filtering was conducted on the datasets, to allow Llama 2 to be more widely usable across tasks (e.g., it can be better used for hate speech classification), while avoiding the potential for the accidental demographic erasure sometimes caused by over-scrubbing. Importantly, this allows Llama 2-Chat to generalize more effectively during safety tuning with fewer examples. As a result, Llama 2 models should be used carefully and deployed only after significant safety tuning is applied. ...
可以知道用以訓練 Llama 2 這模型的資料集來源多樣,基本上沒作篩選。總之,大家不要期望太多。
數位部跟國科會若能對 Llama 2 這基礎語言模型的可能缺失,作個全面的檢視,對大家的研發工作,應該會有很大的幫助。
~~~~~