樂(lè)收生意寶 令人稱(chēng)奇的大神級(jí)AI,都曾經(jīng)歷過(guò)無(wú)數(shù)次訓(xùn)練,AI訓(xùn)練的核心是數(shù)據(jù),盡管數(shù)據(jù)驅(qū)動(dòng)并不是AI算法訓(xùn)練的唯一方式,但不能否認(rèn)的是,相對(duì)來(lái)說(shuō),擁有海量數(shù)據(jù)的領(lǐng)域,是AI滋生的更好溫床。
舉一個(gè)簡(jiǎn)單的例子,與其他多個(gè)小語(yǔ)種翻譯比起來(lái),英漢翻譯器的翻譯能力往往會(huì)更強(qiáng),就是因?yàn)橛h互譯的使用頻率遠(yuǎn)遠(yuǎn)高于其他各語(yǔ)種的互譯。同理,人臉識(shí)別技術(shù)應(yīng)用率遠(yuǎn)高于虹膜識(shí)別,因?yàn)槿四様?shù)據(jù)更方便收集。
數(shù)據(jù)匱乏或是采集成本高,是阻礙AI發(fā)展的一個(gè)重要原因。面對(duì)這種情況,數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)運(yùn)而生。
所謂數(shù)據(jù)增強(qiáng)技術(shù),就像是數(shù)據(jù)的繁殖皿,可以讓數(shù)據(jù)進(jìn)行“有絲分裂”,增強(qiáng)樣本擴(kuò)大數(shù)據(jù)集。
就拿圖像數(shù)據(jù)來(lái)說(shuō),當(dāng)圖像數(shù)據(jù)不足時(shí),可以對(duì)原圖像做一些改動(dòng),例如裁剪、旋轉(zhuǎn)、鏡像反轉(zhuǎn)、輕微的扭曲、增加噪點(diǎn)、增加遮擋物等等。也許對(duì)人類(lèi)來(lái)說(shuō),被改動(dòng)過(guò)的圖像很容易被識(shí)別,看出與原圖的差異。但對(duì)于AI來(lái)說(shuō),即使幾個(gè)像素點(diǎn)的變動(dòng),也是一個(gè)全新的數(shù)據(jù)樣本。
而應(yīng)用于文本數(shù)據(jù),則有互譯和詞向量替換兩種方法。通過(guò)機(jī)器翻譯,將一句話從中文翻譯成英文,再由英文翻譯成中文,就可以實(shí)現(xiàn)語(yǔ)序、同義詞等等的調(diào)整替換,得到語(yǔ)料乘二的效果。以及通過(guò)自然語(yǔ)言生成技術(shù),將一句話中的不同對(duì)象進(jìn)行劃分并替換生成新的句子,就像同義詞、近義詞替換。
令人驚喜的是,這些數(shù)據(jù)增強(qiáng)技術(shù)也開(kāi)始通過(guò)深度學(xué)習(xí)的加持逐漸提升效率。
去年4月,谷歌的AutoAugment技術(shù),設(shè)計(jì)了一個(gè)自動(dòng)搜索空間,利用搜索算法來(lái)確定適合數(shù)據(jù)集的圖像增強(qiáng)策略,制定執(zhí)行的順序并且自動(dòng)執(zhí)行。比如將一個(gè)動(dòng)物或植物照片數(shù)據(jù)集輸入給AutoAugment,AutoAugment通過(guò)計(jì)算會(huì)確定出先平移再剪裁是讓AI對(duì)于數(shù)據(jù)“陌生感”最大化的解決方案,然后開(kāi)始自動(dòng)執(zhí)行。是不是很精妙?
-----本文轉(zhuǎn)自網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除處理。
樂(lè)收生意寶-是樂(lè)收網(wǎng)旗下精準(zhǔn)、便捷的采購(gòu)信息和供應(yīng)信息發(fā)布平臺(tái),樂(lè)收生意寶用簡(jiǎn)單的理念,致力于為中國(guó)4000萬(wàn)中小企業(yè)和商業(yè)人士提供便捷的采供信息服務(wù)!