Siri的目標不再是搞笑陪聊天 Apple語音收集分析越來越具侵略性

用聲控裝置控制電腦,是科技人許久以前的夢想。不過要讓AI聽懂人類說話,首先要讓它知道說話是怎麼一回事。科技公司的電子「耳朵」要升級進化,需要依靠成千上萬低薪的人力來逐一註解聲音的資料。我們人類微弱的輕柔低語需經過解讀辨認,才能夠成為他們數據庫裡有價值的資產。

要教導機器辨識和回應人們說話,需要有逐字逐句相符的音頻檔案,這需要文字記錄的文本,它是緩慢而且成本昂貴的過程。較早期的開發者購買或是建構了巨大的錄音圖書館,由人們對著麥克風閱讀報紙或是其他預先寫好的材料。

在90年代,語音辨識仍是錯誤率一塌糊塗的階段。當時蘋果曾經發給實驗室員工一件搞笑T恤,上頭印著「I Helped Apple Wreck a Nice Beach」(字面意思是「我幫蘋果毀了漂亮海灘」,照理說原本應該是 I helped Apple recognize speech,但是recognize speech(語音辨識)發音聽起來很像wreck a nice beach)。這個充滿自嘲意味的笑話,反映了語音辨識技術初期的困難。

蘋果也是第一家改變技術模式的公司。它在2011年推出有Siri的iPhone 4S,技術來自前一年美國國防部贊助的研究成果。從此之後,錄音檔的收集和逐字記錄不再是在實驗室裡進行。蘋果在短時間內銷售了400萬支4S手機,很快就開始累積大量免費、自然的聲音資料,並運用這些資料來提升Siri的能力。蘋果資深主管形容這是非常繁瑣的工作,「聽了15到30分鐘之後,你的頭就開始痛。」公司把許多工作外包給了一些歐洲的IT廠商,包括愛爾蘭的GlobeTech。

過去幾年來,蘋果對於收集和分析人們聲音越來越有侵略性。Siri的目標不再是搞笑陪聊天,而是要發展成語音的搜尋引擎,必須滿足用戶們無窮無盡的詢問。為了擴充Siri的辭庫,蘋果也越來越加仰賴對音檔的分析。兼職人員必須協助分析各種不同的語言,口音,以及各種次文化特殊用語。

位於愛爾蘭科克的GlobeTech公司前員工形容,他們每天的工作是戴著耳機坐在筆電前面,聽取並註記1300則音檔。有些可能是單獨一句,有的是整段對話。據說更早之前每天配額是2500則,後來為了提高準確率才下調標準。工作時他們點擊音頻,電腦就會出現Siri所「聽到」的文字,然後核可或是修改文字的內容。

這些工作人員使用的程式CrowdCollect可以基於一些理由跳過一些錄音:比如語言類別錯誤、誤觸按鈕、音軌消失。但是並沒有一套機制讓工作人員可以回報或是消除一些不適當的錄音內容,例如喝醉了的人對著麥克風要求傳色情訊息。

對他們而言,沒有所謂太過私密的內容,他們必須如實逐字核對所有聽到的聲音。兼職人員多半來來去去,公司幾乎沒有關於隱私權方面的教育訓練。

兼職人員說,大部分詢問Siri的內容都平凡無奇,比如「播一首賈斯汀的歌」或是「附近最近的麥當勞在哪」,但是有些內容十分露骨,也有些是一長串包含種族歧視和恐同的謾罵。一名前員工形容他們上班的休息抽菸空檔,經常在交換他們聽來的「恐怖故事」。