資料為體，系統為用

❖ Browsing media by trc

資料為體，系統為用
——受資料左右的人工智慧系統,如何左右身為使用者的你我？

2022-04

莊庭瑞

本文刊於台灣《科學人》月刊 2022 年 4 月號。以下的版本增添、更動部份文字並附上參考書目。

「機器學習」已是常見的用語，多數人都不陌生。簡單地說，機器學習使用自動化的方法分析給定的資料，生成高效率的運算模型，用來判別之後同類型的資料。用來訓練模型的資料越多，得到的模型也就越精細。當然，訓練資料的特質，影響了生成模型的特性。因為資料缺失導致模型偏差的情形也時有所見，卻很難避免。以下舉個例子。

假設手邊有大量貓和狗的照片，其中出現的狗都是黑狗兄，貓則有花貓、白貓、但就是沒有黑貓。只用這批照片訓練出來的貓狗辨別模型，看到毛茸茸一團可愛的黑麻糬，十有八九會認為那是狗 <1>。

上述例子當個笑話，應該無傷大雅。這類失誤若是出現在人臉辨識系統，當事人可就要翻臉了。2018 年由博蘭威尼 (Joy Buolamwini) 和葛布若 (Timnit Gebru) 兩位非裔女性計算科學家合著的論文指出，市面上三款分別由微軟、IBM 以及中國某廠商製作的人臉辨識系統，遇到黑皮膚的人頭影像，常錯把女當男、或是男當女，有些系統的錯誤率可高達 30% <2>。但是這三家系統卻都能精準辨別白皮膚頭像的性別。其中緣故可以想見，應該是用來訓練的照片中白人遠多於黑人，甚至所收錄的黑人頭像有性別標示錯誤的情形。

值得一提的是這兩位研究人員的巧思：用來測試三家系統的資料，取自冰島、瑞典、芬蘭、南非、塞內加爾、盧安達的國會議員頭像和性別。這些都是公開資訊。六國共 1270 位代表組成的測試資料集，在膚色與性別的組成，比當時市面上的測試資料集，均衡許多。

機器學習所用到的訓練資料和測試資料，必須符合之後會遇到的資料，否則再多資料訓練出來的模型，還是不符需求。這是訓練資料的涵蓋性議題。另一方面，訓練資料因其取材來源，也會帶進成見，這在自然語言處理尤其可能。在資訊爆炸的網路時代，語料庫來自四處爬梳的網頁，難免包括不雅詞語和偏見，這需要費心過濾，否則訓練出來的模型也會說髒話、帶有歧視。有成見的網頁資料訓練出有成見的模型，這模型若用來產生更多帶成見的文句、散佈在網路，就成為惡性循環。

以「資料為中心的人工智慧」(Data-Centric AI) 的呼聲因此而起，研究人員也提出各種實務作法，用來標明資料集的組成與特質，希望有助於彰顯其所訓練出來模型的特性 <3>。有研究者認為，資料集也需要「營養標示」(Nutrition Facts Label) <4>，摘要說明其成份組成；或是借用電子產業對零組件生產使用的作法，資料集也要附上「規格書」(Datasheet)，述明資料集的蒐集過程、適用環境與使用限制等 <5>。這些描述已超越常用的「都柏林核心集」(Dublin Core) 或是「資料目錄語彙」(DCAT) 這類編目格式的要求，而是關於資料集本身的詳細生產履歷。這類型的「後設資料」(metadata) 需要由資料集的產出者詳細紀錄編寫，無法（全）自動產生，資料集的使用者更是無法代勞。

針對自然語言處理，美國西雅圖華盛頓大學的班德 (Emily M. Bender) 教授等人，提出「資料陳述」(Data Statements) <6> 的撰寫指引，用來描述語文資料集的基本資訊，包括蒐集緣由與材料來源，希望有助於減緩資料集潛藏（不可避免的）內在偏誤所帶來的傷害。日常語句承載了社會成見，例如在大眾媒體常看到的「亞裔美國孩子會念書」、「非裔美國人會運動」。有些成見容易察覺，有些則相當細微，大眾罕有感覺。

例如，「兩位非裔女性計算科學家合著的論文指出」這句子真的有必要把「非裔」跟「女性」放在「計算科學家」前頭做為修飾嗎？為何需要指出這兩位研究人員的族裔與性別？是認為計算科學家少有非裔女性，所以需要指出並強調嗎？這是否就是成見？

去年初，班德與葛布若領銜發表論文〈隨機學語鸚鵡的危險：語言模型會太大了嗎？🦜〉(On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜) <7>。對於使用（品質堪慮的）超巨量的語料庫來訓練語言模型，提出許多批評與建議。其一，這些模型固化了原有語料中的成見，也可能因為語料的不當過濾，模型難以符合弱勢族群的需求；其二，訓練這些超巨量模型需要大量耗能，產生可觀的碳足跡。

原本任職 Google 的葛布若，為了這篇論文初稿槓上公司而遭解職（一說自行辭職），同在 Google 任職的其他作者則埋名以對。一年後風波平息，但議論持續。

網路普及帶來資料大爆發，搭配低廉的運算及儲存成本，為人工智慧系統創造突破性的進展，當這些系統反過來影響眾人對世界的認知時，我們也該對訓練人工智慧系統的資料組成與限制，有更多的思考。

（是的，你沒看錯，那篇論文的標題的確以鸚鵡的表情符號 🦜 做為結尾。）

~~~ ~~~ ~~~

這個例子衍生自：Lakkaraju et al. (2016), Identifying Unknown Unknowns in the Open World: Representations and Policies for Guided Exploration. https://arxiv.org/abs/1610.09064
Buolamwini and Gebru (2018), Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. https://proceedings.mlr.press/v81/buolamwini18a.html
可參見 2021 年 Data-Centric AI Workshop https://datacentricai.org/neurips21/。
Stoyanovich and Howe (2019), Nutritional Labels for Data and Models. http://sites.computer.org/debull/A19sept/p13.pdf
Gebru et al. (2021), Datasheets for Datasets. https://arxiv.org/abs/1803.09010
Bender et al. (2021), A Guide for Writing Data Statements for Natural Language Processing (Version 2). https://techpolicylab.uw.edu/data-statements/
Bender et al. (2021), On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. https://dl.acm.org/doi/10.1145/3442188.3445922

Added

2 years ago

資料為體，系統為用

Added

Collected in

License

Download