谷歌花6000萬美金買來的“毒蘑菇”讓AI產生了幻覺

首頁 > 觀點 >正文

【摘要】花6000萬美元買了個“有毒”語料？

財經光年 · 2024-06-03 19:00

來源: 財經光年公眾號

美國財政部長耶倫訪問中國期間，曾經點了幾盤名為“見手青”的毒蘑菇，挑事的美國媒體認為毒蘑菇讓耶倫在訪華期間產生了幻覺，出賣了美國的利益。回到美國后，耶倫否認了這種說法，認為烹飪到位的毒蘑菇“非常美味”，自己身體沒有任何不適。而谷歌花了6000萬美元收購的AI訓練語料，卻由于“烹飪”方法不到位，讓食用語料的谷歌AI中毒，真的產生了幻覺。

最近，谷歌發現旗下的AI Overview狀況頻出，不僅提出了“披薩配膠水”的黑暗料理，還“建議”用戶吃石頭補充礦物質和維生素、喝尿治療腎結石、被響尾蛇咬了用冰塊冷敷傷口、感到抑郁可以跳金門大橋等，甚至提出“毒藥對人體很好”的離譜結論。

收到大量的用戶反饋后，谷歌禁用了某些搜索的AI Overview功能，并對其進行修復和優化。

AI Overview大翻車

和此前Bard一樣，AI Overview也是對手們兵臨城下時，谷歌倉促應戰的產物。

5月中旬，因OpenAI前日發布的王炸級產品GPT-4o拔高了觀眾的閾值，兩小時的谷歌I/O開發者大會即使帶來12款新品及升級，還是讓觀眾感到索然無味。

AI Overview正是此次發布會推出的搜索升級功能，該功能將AI結果加入到搜索結果呈現。正式發布前，AI Overview已經過一年時間的測試，期間處理了超過10億次查詢。盡管谷歌為將AI集成進搜索做了精心設計，但體驗過后，AI Overview差異性有限，產品性能更是一言難盡。

作為危機公關的一部分，谷歌官方不得不下場回應稱，離譜的回答僅在十分罕見的提問中出現的，不代表大多數人的經歷。

事實上，諸如“我每天應該吃多少石頭？”之類的問題的確屬于引導性提問。然而谷歌在面對這類陷阱式的提問時，不僅沒能甄別其中的邏輯漏洞，反而有理有據地給出了有害的答案——“加州大學伯克利分校的地質學家表示建議每天至少吃一塊小石頭，因為石頭中含有的礦物質和維生素有益消化系統健康。”倘或一些不明真相的網友選擇信任權威，開始每天食用石頭，后果將不堪設想。

對于這種一本正經地胡說八道，谷歌CEO劈柴哥（Sundar Pichai）回復稱，上述回答產生的根本原因是生成式AI的固有缺陷——幻覺問題，而這個問題目前尚無解決方案。

本質上，幻覺是由于訓練數據有缺陷、算法錯誤或對上下文的誤解造成的。

資深人工智能專家郭濤向財經光年表示，幻覺問題雖無法根治，但可以通過技術降低其出現的頻率：

一是增加數據多樣性，通過收集更多樣化的訓練數據，提高AI模型的泛化能力，減少對特定數據集的依賴；

二是改進模型架構，使用更復雜的神經網絡結構、增加模型的深度或寬度等，提高模型的性能和泛化能力；

三是引入對抗性訓練，向模型輸入故意制造的錯誤樣本，提高模型的魯棒性，使其能更好地處理異常輸入。

成也貼吧敗也貼吧

HITCon安全會議上的相關研究成果顯示，只需“污染”不到0.7%的數據集，就能繞開防御機制，大幅降低大模型輸出內容的準確性。當大模型被投喂的數據集含有誤導性信息時，其給出的結果必然同樣失真。這正是谷歌在這次翻車中的失職之處，不加篩選地給大模型投喂了“有毒”的語料。

例如“如何不讓芝士從披薩上面滑落”的問題，AI Overview的回答是，“給醬汁中加入八分之一的無毒膠水，可以使其更粘稠，有助于芝士粘附”。這一答案隨后被扒出來自Reddit 一則11年前的惡搞帖子；而在建議抑郁的網友“跳下金門大橋”的回答中則明晃晃地標注著“一位Reddit 用戶建議”。

今年2月，谷歌與Reddit達成合作，將其平臺上的內容用于訓練谷歌的AI模型。Reddit上線于2005年，是美國流量排名前十的社區論壇，又稱為“美版貼吧”。公司于今年3月正式上市，2023年虧損近1億美元，仍處于商業變現的早期階段。

大模型熱潮讓Reddit實實在在體驗了一把潑天富貴：一方面，Reddit得以將UGC內容授權用于模型訓練，僅和谷歌的授權協議每年就價值6000萬美元，最近還敲定了和OpenAI的合作；另一方面，谷歌AI搜索的算法更新讓Reddit網站流量激增126%，今年一季度收入同比增長了48%。

作為百度貼吧中一個子版塊，弱智吧最近也在國內的大模型訓練中發揮了重要作用。一項來自中科院、滑鐵盧大學等高校和機構的研究顯示，使用弱智吧數據訓練的大模型，在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。跑分超過百科、知乎、豆瓣、小紅書等平臺，甚至是研究團隊精心挑選的數據集，直接登頂大模型最好的中文語料庫。

不得不說，大模型為貼吧這一PC時代的產物打開了變現的新思路。不過，谷歌每年花費6000萬美元買來的語料庫，最終訓練出的成果竟如此上不得臺面。

深度科技研究院院長張孝榮認為，弱智吧數據質量相對較高是個特例。在使用貼吧內容進行大模型訓練時，有以下注意點：

需要對原始語料進行清洗和處理，以去除水貼、廣告、謾罵等不良內容；

需要對語料進行標注和分類，以便更好地訓練模型；

此外，還需要注意模型的泛化性和可解釋性，通過一定的策略擴充訓練數據集，以確保模型在不同場景下的表現和適用性。

AI搜索是好生意嗎？

當下，AI搜索是海內外AI創業團隊的重要方向之一。

去年2月，微軟上線了GPT-4加持的New bing。截至今年1月，其市占率已從2023年的2.97%增長至3.42%。微軟還在New bing的一些回答中插入廣告來實現創收，今年一季度，微軟的搜索與廣告營收增長12%，超出預期，AI貢獻明顯。

Similarweb數據顯示，主打AI搜索的創業公司Perplexity今年前三月的流量持續增長，分別為4560萬、4954萬和6149萬，最新估值已超過25億美元。

眼看市場份額不斷被侵蝕，谷歌又慌了。

今年3月，谷歌任命進入公司20年的老將Liz Reid擔任生成式搜索業務的負責人，還將前搜索質量和排名主管Pandu Nayak任命為谷歌搜索首席科學家。這次重大的高管洗牌彰顯了谷歌對AI搜索志在必得的信心。

不過，隨著谷歌生成式AI搜索功能開始推出，一系列負面影響隨之產生：AI生成的垃圾郵件增加、原創內容的可見度下降，就連公司的現金牛——搜索廣告的營收都遭到蠶食。只因AI overview會讓更多用戶停留在谷歌主頁，而非利潤豐厚的廣告頁面，從而影響廣告的曝光和點擊率。

郭濤表示，AI Overview對谷歌的搜索廣告業務是把雙刃劍：

一方面，它可以幫助谷歌更好地理解用戶需求和行為，從而提供更加精準的搜索結果和廣告推薦；

另一方面，AI Overview的誤導性內容也可能會影響用戶對谷歌搜索的信任度和滿意度，進而影響廣告收入。

一些專家認為，未來，AI Overview可能會發展出更加智能和個性化的產品形態，例如通過自然語言交互、語音識別、圖像識別等技術來提供更加智能化的搜索結果和推薦。

來源: 財經光年公眾號

以上文字僅代表作者個人觀點，并不代表金評媒立場，禁止轉載。

財經光年

評論：

. 點擊排行

. 隨機閱讀

. 相關內容

182在线播放,波多野结衣一区在线,日本三人交xxx69视频,亚洲麻豆精品果冻传媒

谷歌花6000萬美金買來的“毒蘑菇”讓AI產生了幻覺

【摘要】花6000萬美元買了個“有毒”語料？

財經光年