CKIP-Llama-2-7b

❖ Browsing media by trc

[更新：因上游（詞庫小組）的網頁關閉了，唐鳳的備份網頁也轉為不公開了。]

連假前看到中研院資訊所詞庫小組 (CKIP) 釋出了 CKIP-Llama-2-7b 繁體中文大型語言模型，覺得很興奮。

今天上網卻發現在 GitHub 跟 Hugging Face 網站上，這語言模型的網頁已離線了。覺得很失落。

將研究成果開放給公眾使用檢視，是好事也需受到鼓勵。政治、文化、歷史的敏感題，沒人可以面面俱到，考一百分（也跟您在海峽左岸或右岸應答有關）。

大型語言模型基本上是機器鸚鵡學人講話，不可能是無上真知，再怎麼調校都是掛一漏萬，定有胡言亂語的時候。何況機器不知道它是在對誰說話。

這是 AI Literacy 的議題，跟「數位素養」一樣，需要眾人熟悉瞭解。在人工智慧風潮的時代，大家要能思辨使用數位工具。不用無限上綱。

目前中研院詞庫小組的語言模型資訊，還可以從唐鳳在 Hugging Face 上的備份跟延伸網頁看到（註：已轉為不公開）：

https://huggingface.co/audreyt/CKIP-Llama-2-7b-chat-GGUF

模型同時也轉成 GGUF 格式，可以在個人電腦上面跑，不必依靠外部提供的運算服務。可具數位韌性，我想這應該是唐部長在意的地方。CKIP-Llama-2-7b 模型使用單片 GPU 顯卡（至少需有 12G 記憶體）就可以跑了，這是它的特色優點。

目前幾個台灣華語語境的大型語言模型工作，都疊加在 Meta 公司的 Llama 2 模型之上，再加訓練調整。從 Llama 2 技術論文在安全性 (Safety) 的說明：

https://arxiv.org/abs/2307.09288

... No additional filtering was conducted on the datasets, to allow Llama 2 to be more widely usable across tasks (e.g., it can be better used for hate speech classification), while avoiding the potential for the accidental demographic erasure sometimes caused by over-scrubbing. Importantly, this allows Llama 2-Chat to generalize more effectively during safety tuning with fewer examples. As a result, Llama 2 models should be used carefully and deployed only after significant safety tuning is applied. ...

可以知道用以訓練 Llama 2 這模型的資料集來源多樣，基本上沒作篩選。總之，大家不要期望太多。

數位部跟國科會若能對 Llama 2 這基礎語言模型的可能缺失，作個全面的檢視，對大家的研發工作，應該會有很大的幫助。

~~~~~

https://www.facebook.com/trc4identica/posts/pfbid02TetDvcVUSMmQALkUz2GYDshTRp7VH2f4xFNc4HYWR6FgHSzbbA9pCJyfLjD3rwWZl

https://www.facebook.com/jslipfhf/posts/pfbid0L1AV4PuKuKKTxYSCmFD6jZF3AA2CV9u78hgspuXCeJ1T87oJbDMdKTjxViNV1x64l

https://www.sinica.edu.tw/News_Content/70/1850

Added

2 years, 9 months ago

Report media

License

http://creativecommons.org/licenses/by/3.0/