&

為訓(xùn)練AI，OpenAI等科技巨頭花式淘數(shù)據(jù): 2024-04-08 12:47 來(lái)源：環(huán)球時(shí)報(bào) 次閱讀; 分享：

【環(huán)球時(shí)報(bào)特約記者甄翔】《紐約時(shí)報(bào)》6日披露了科技公司訓(xùn)練人工智能的秘密——利用語(yǔ)音識(shí)別工具轉(zhuǎn)錄視頻網(wǎng)站YouTube上的視頻，形成對(duì)話文本數(shù)據(jù)，供其最新的AI學(xué)習(xí)。這是一條違反法律的“捷徑”。

　　報(bào)道稱，早在2021年年底，OpenAI就面臨培訓(xùn)AI模型的數(shù)據(jù)源幾乎陷入枯竭的境地。該公司鋌而走險(xiǎn)，在明知YouTube母公司谷歌禁止用工具提取該平臺(tái)內(nèi)容的情況下，轉(zhuǎn)錄了100多萬(wàn)條視頻并生成GPT-4模型的學(xué)習(xí)材料，OpenAI創(chuàng)始人之一布羅克曼也參與其中。諷刺的是，谷歌得知OpenAI的行為卻并未制止，因?yàn)槠湟苍谔崛ouTube平臺(tái)內(nèi)容訓(xùn)練AI模型。

　　《紐約時(shí)報(bào)》援引消息人士的話表示，這可能侵犯視頻版權(quán)，因?yàn)樗鼈儗儆趧?chuàng)作者。盡管如此，越來(lái)越多的科技公司冒著面臨訴訟的風(fēng)險(xiǎn)也要“走捷徑”。報(bào)道稱，根據(jù)內(nèi)部會(huì)議記錄，Meta公司商定從互聯(lián)網(wǎng)上收集受版權(quán)保護(hù)的數(shù)據(jù)，因?yàn)榕c出版商、藝術(shù)家、音樂(lè)家和新聞行業(yè)就版權(quán)內(nèi)容談判太花時(shí)間。

　　報(bào)道稱，領(lǐng)先的AI模型需要從涵蓋多達(dá)3萬(wàn)億字的數(shù)字文本池中學(xué)習(xí)。有分析稱，預(yù)計(jì)互聯(lián)網(wǎng)上現(xiàn)有可供培訓(xùn)AI模型的數(shù)據(jù)最快到2026年就會(huì)耗盡。

　　《紐約時(shí)報(bào)》援引內(nèi)部人士的消息稱，谷歌法律部門(mén)已經(jīng)要求起草新的政策，擴(kuò)大該公司對(duì)消費(fèi)者數(shù)據(jù)的用途。Meta的情況更嚴(yán)峻，其旗下臉書(shū)平臺(tái)不是人們撰寫(xiě)文章的地方，可用數(shù)據(jù)不多。報(bào)道稱，在一次討論中，Meta高管談到在非洲聘請(qǐng)承包商來(lái)匯總各種小說(shuō)和非小說(shuō)的文本摘要。Meta全球合作與內(nèi)容副總裁格魯丁表示：“唯一阻礙我們達(dá)到ChatGPT水平的因素就是數(shù)據(jù)量。”

點(diǎn)贊()

上一條：被索賠360億元！谷歌將刪除數(shù)十億條用戶數(shù)據(jù)2024-04-03

下一條：6G發(fā)展呼吁全球統(tǒng)一標(biāo)準(zhǔn)2024-04-17

相關(guān)稿件: 再添國(guó)家級(jí)榮譽(yù)！淘云科技獲評(píng)國(guó)家級(jí)專精特新“小巨人”企業(yè) 2023-07-26; 熱潮之下，讓AI和數(shù)據(jù)真正發(fā)揮作用 2023-08-16; 反壟斷密集推進(jìn) 美科技巨頭與政府博弈加劇 2021-06-25; 國(guó)際科技巨頭公司“蒙眼狂奔”的時(shí)代或?qū)⒉粡?fù)存在 2021-09-03; 科技巨頭造車？不簡(jiǎn)單傳統(tǒng)車企代工？不甘心 2021-02-26

為訓(xùn)練AI，OpenAI等科技巨頭花式淘數(shù)據(jù)