❖ Browsing media by trc

Image for CKIP-Llama-2-7b

CKIP-Llama-2-7b

[更新:因上游(詞庫小組)的網頁關閉了,唐鳳的備份網頁也轉為不公開了。]

連假前看到中研院資訊所詞庫小組 (CKIP) 釋出了 CKIP-Llama-2-7b 繁體中文大型語言模型,覺得很興奮。

今天上網卻發現在 GitHub 跟 Hugging Face 網站上,這語言模型的網頁已離線了。覺得很失落。

將研究成果開放給公眾使用檢視,是好事也需受到鼓勵。政治、文化、歷史的敏感題,沒人可以面面俱到,考一百分(也跟您在海峽左岸或右岸應答有關)。

大型語言模型基本上是機器鸚鵡學人講話,不可能是無上真知,再怎麼調校都是掛一漏萬,定有胡言亂語的時候。何況機器不知道它是在對誰說話。

這是 AI Literacy 的議題,跟「數位素養」一樣,需要眾人熟悉瞭解。在人工智慧風潮的時代,大家要能思辨使用數位工具。不用無限上綱。

目前中研院詞庫小組的語言模型資訊,還可以從 唐鳳 在 Hugging Face 上的備份跟延伸網頁看到(註:已轉為不公開):

https://huggingface.co/audreyt/CKIP-Llama-2-7b-chat-GGUF

模型同時也轉成 GGUF 格式,可以在個人電腦上面跑,不必依靠外部提供的運算服務。可具數位韌性,我想這應該是唐部長在意的地方。CKIP-Llama-2-7b 模型使用單片 GPU 顯卡(至少需有 12G 記憶體)就可以跑了,這是它的特色優點。

目前幾個台灣華語語境的大型語言模型工作,都疊加在 Meta 公司的 Llama 2 模型之上,再加訓練調整。從 Llama 2 技術論文在安全性 (Safety) 的說明:

https://arxiv.org/abs/2307.09288

... No additional filtering was conducted on the datasets, to allow Llama 2 to be more widely usable across tasks (e.g., it can be better used for hate speech classification), while avoiding the potential for the accidental demographic erasure sometimes caused by over-scrubbing. Importantly, this allows Llama 2-Chat to generalize more effectively during safety tuning with fewer examples. As a result, Llama 2 models should be used carefully and deployed only after significant safety tuning is applied. ...

可以知道用以訓練 Llama 2 這模型的資料集來源多樣,基本上沒作篩選。總之,大家不要期望太多。

數位部跟國科會若能對 Llama 2 這基礎語言模型的可能缺失,作個全面的檢視,對大家的研發工作,應該會有很大的幫助。

~~~~~

https://www.facebook.com/trc4identica/posts/pfbid02TetDvcVUSMmQALkUz2GYDshTRp7VH2f4xFNc4HYWR6FgHSzbbA9pCJyfLjD3rwWZl

https://www.facebook.com/jslipfhf/posts/pfbid0L1AV4PuKuKKTxYSCmFD6jZF3AA2CV9u78hgspuXCeJ1T87oJbDMdKTjxViNV1x64l

https://www.sinica.edu.tw/News_Content/70/1850

Added

6 months, 3 weeks ago

Report media

License

CC BY 3.0