182在线播放,波多野结衣一区在线,日本三人交xxx69视频,亚洲麻豆精品果冻传媒

谷歌花6000萬美金買來的“毒蘑菇”讓AI產生了幻覺

首頁 > 觀點 >正文

【摘要】花6000萬美元買了個“有毒”語料?

  財經光年  ·  2024-06-03 19:00
谷歌花6000萬美金買來的“毒蘑菇”讓AI產生了幻覺 - 金評媒
來源: 財經光年公眾號   

美國財政部長耶倫訪問中國期間,曾經點了幾盤名為“見手青”的毒蘑菇,挑事的美國媒體認為毒蘑菇讓耶倫在訪華期間產生了幻覺,出賣了美國的利益。回到美國后,耶倫否認了這種說法,認為烹飪到位的毒蘑菇“非常美味”,自己身體沒有任何不適。而谷歌花了6000萬美元收購的AI訓練語料,卻由于“烹飪”方法不到位,讓食用語料的谷歌AI中毒,真的產生了幻覺。 

最近,谷歌發現旗下的AI Overview狀況頻出,不僅提出了“披薩配膠水”的黑暗料理,還“建議”用戶吃石頭補充礦物質和維生素、喝尿治療腎結石、被響尾蛇咬了用冰塊冷敷傷口、感到抑郁可以跳金門大橋等,甚至提出“毒藥對人體很好”的離譜結論。 

收到大量的用戶反饋后,谷歌禁用了某些搜索的AI Overview功能,并對其進行修復和優化。


AI Overview大翻車



和此前Bard一樣,AI Overview也是對手們兵臨城下時,谷歌倉促應戰的產物。

5月中旬,因OpenAI前日發布的王炸級產品GPT-4o拔高了觀眾的閾值,兩小時的谷歌I/O開發者大會即使帶來12款新品及升級,還是讓觀眾感到索然無味。

AI Overview正是此次發布會推出的搜索升級功能,該功能將AI結果加入到搜索結果呈現。正式發布前,AI Overview已經過一年時間的測試,期間處理了超過10億次查詢。盡管谷歌為將AI集成進搜索做了精心設計,但體驗過后,AI Overview差異性有限,產品性能更是一言難盡。

作為危機公關的一部分,谷歌官方不得不下場回應稱,離譜的回答僅在十分罕見的提問中出現的,不代表大多數人的經歷。

事實上,諸如“我每天應該吃多少石頭?”之類的問題的確屬于引導性提問。然而谷歌在面對這類陷阱式的提問時,不僅沒能甄別其中的邏輯漏洞,反而有理有據地給出了有害的答案——“加州大學伯克利分校的地質學家表示建議每天至少吃一塊小石頭,因為石頭中含有的礦物質和維生素有益消化系統健康。”倘或一些不明真相的網友選擇信任權威,開始每天食用石頭,后果將不堪設想。

對于這種一本正經地胡說八道,谷歌CEO劈柴哥(Sundar Pichai)回復稱,上述回答產生的根本原因是生成式AI的固有缺陷——幻覺問題,而這個問題目前尚無解決方案。

本質上,幻覺是由于訓練數據有缺陷、算法錯誤或對上下文的誤解造成的。

資深人工智能專家郭濤向財經光年表示,幻覺問題雖無法根治,但可以通過技術降低其出現的頻率:

一是增加數據多樣性,通過收集更多樣化的訓練數據,提高AI模型的泛化能力,減少對特定數據集的依賴;

二是改進模型架構,使用更復雜的神經網絡結構、增加模型的深度或寬度等,提高模型的性能和泛化能力;

三是引入對抗性訓練,向模型輸入故意制造的錯誤樣本,提高模型的魯棒性,使其能更好地處理異常輸入。



成也貼吧 敗也貼吧



HITCon安全會議上的相關研究成果顯示,只需“污染”不到0.7%的數據集,就能繞開防御機制,大幅降低大模型輸出內容的準確性。當大模型被投喂的數據集含有誤導性信息時,其給出的結果必然同樣失真。這正是谷歌在這次翻車中的失職之處,不加篩選地給大模型投喂了“有毒”的語料。

例如“如何不讓芝士從披薩上面滑落”的問題,AI Overview的回答是,“給醬汁中加入八分之一的無毒膠水,可以使其更粘稠,有助于芝士粘附”。這一答案隨后被扒出來自Reddit 一則11年前的惡搞帖子;而在建議抑郁的網友“跳下金門大橋”的回答中則明晃晃地標注著“一位Reddit 用戶建議”。

今年2月,谷歌與Reddit達成合作,將其平臺上的內容用于訓練谷歌的AI模型。Reddit上線于2005年,是美國流量排名前十的社區論壇,又稱為“美版貼吧”。公司于今年3月正式上市,2023年虧損近1億美元,仍處于商業變現的早期階段。

大模型熱潮讓Reddit實實在在體驗了一把潑天富貴:一方面,Reddit得以將UGC內容授權用于模型訓練,僅和谷歌的授權協議每年就價值6000萬美元,最近還敲定了和OpenAI的合作;另一方面,谷歌AI搜索的算法更新讓Reddit網站流量激增126%,今年一季度收入同比增長了48%。

作為百度貼吧中一個子版塊,弱智吧最近也在國內的大模型訓練中發揮了重要作用。一項來自中科院、滑鐵盧大學等高校和機構的研究顯示,使用弱智吧數據訓練的大模型,在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數據集,直接登頂大模型最好的中文語料庫。

不得不說,大模型為貼吧這一PC時代的產物打開了變現的新思路。不過,谷歌每年花費6000萬美元買來的語料庫,最終訓練出的成果竟如此上不得臺面。

深度科技研究院院長張孝榮認為,弱智吧數據質量相對較高是個特例。在使用貼吧內容進行大模型訓練時,有以下注意點:

需要對原始語料進行清洗和處理,以去除水貼、廣告、謾罵等不良內容;

需要對語料進行標注和分類,以便更好地訓練模型;

此外,還需要注意模型的泛化性和可解釋性,通過一定的策略擴充訓練數據集,以確保模型在不同場景下的表現和適用性。

AI搜索是好生意嗎?


當下,AI搜索是海內外AI創業團隊的重要方向之一。

去年2月,微軟上線了GPT-4加持的New bing。截至今年1月,其市占率已從2023年的2.97%增長至3.42%。微軟還在New bing的一些回答中插入廣告來實現創收,今年一季度,微軟的搜索與廣告營收增長12%,超出預期,AI貢獻明顯。

Similarweb數據顯示,主打AI搜索的創業公司Perplexity今年前三月的流量持續增長,分別為4560萬、4954萬和6149萬,最新估值已超過25億美元。

眼看市場份額不斷被侵蝕,谷歌又慌了。

今年3月,谷歌任命進入公司20年的老將Liz Reid擔任生成式搜索業務的負責人,還將前搜索質量和排名主管Pandu Nayak任命為谷歌搜索首席科學家。這次重大的高管洗牌彰顯了谷歌對AI搜索志在必得的信心。

不過,隨著谷歌生成式AI搜索功能開始推出,一系列負面影響隨之產生:AI生成的垃圾郵件增加、原創內容的可見度下降,就連公司的現金牛——搜索廣告的營收都遭到蠶食。只因AI overview會讓更多用戶停留在谷歌主頁,而非利潤豐厚的廣告頁面,從而影響廣告的曝光和點擊率。

郭濤表示,AI Overview對谷歌的搜索廣告業務是把雙刃劍:

一方面,它可以幫助谷歌更好地理解用戶需求和行為,從而提供更加精準的搜索結果和廣告推薦;

另一方面,AI Overview的誤導性內容也可能會影響用戶對谷歌搜索的信任度和滿意度,進而影響廣告收入。

一些專家認為,未來,AI Overview可能會發展出更加智能和個性化的產品形態,例如通過自然語言交互、語音識別、圖像識別等技術來提供更加智能化的搜索結果和推薦。

來源: 財經光年公眾號

上一篇文章                  下一篇文章
以上文字僅代表作者個人觀點,并不代表金評媒立場,禁止轉載。

財經光年

評論:
    . 點擊排行
    . 隨機閱讀
    . 相關內容