大數據不香了？小數據人工智能正在崛起，產學界探索可信AI

來源：www.hebeijilong.cn 發布人：彭二胖

2021-12-30 22:46:17|已瀏覽：197次

人工智能

“每購買一個面包就會有一只柯基失去它的屁股。”
在這個段子背后，是面包與柯基屁股的相似性引發的視覺混淆。
相似的事物尚且容易引發人眼的視覺混淆，具有相似特征的數據則會引發人工智能的誤解，使AI程序抓取的數據出現偏差，從而使AI程序作出錯誤的判斷。
利用機器學習的這一特征，攻擊者直接將偽裝的數據和信息“注入”人工智能程序，從而污染機器學習模型，誤導AI做出錯誤判斷，這一威脅網絡安全的行為就被稱為“數據投毒”。
一直以來，人工智能都依賴大量的數據進行模型訓練，但這帶來了過度收集個人數據、臟數據清洗難度大、數據匱乏領域依然存在“數據孤島”等問題。近日，美國網絡安全和新興技術局（以下簡稱“CSET”）發布研究報告《小數據人工智能的巨大潛力》，指出長期被忽略的小數據人工智能潛力不可估量。
在當下人工智能產業迅速發展的情況下，大數據行業正在發生哪些變化？人工智能行業的數據合規又將走向何方？
從大數據回歸小數據
自2006年，“AI教父”杰弗里·辛頓以及他的學生魯斯蘭·薩拉赫丁諾夫提出深度學習理念后，基于深度學習技術的人工智能浪潮席卷全球。機器通過學習樣本數據的內在規律與層次，從而獲得預測能力。
隨著深度學習算法從學術界走向工業應用，大數據資源的使用也越來越普遍。無論是早期如語音識別、人臉識別等應用數據生產，還是互聯網電商體系下的行為數據生產，都是基于大規模數據分析結果，以此推動了整個數據產業的發展。
在人工智能領域，小數據方法并不是新鮮詞。與依托于海量數據總結規律的學習方法不同，小數據方法是基于人類的先驗知識，在僅有少量數據的情況下利用小樣本數據集進行訓練的人工智能方法，大致分為遷移學習、主動學習、強化學習、貝葉斯方法、數據生成等。
一方面，在數據量較少或沒有標記數據可用的情況下，不得不基于小樣本數據加以人工的先驗知識或者預訓練模型來訓練新模型。
對于學術界而言，早期的模型訓練運用數據量都不多，基于人類先驗知識的遷移學習和強化學習就是小數據方法的初始應用。同盾科技合伙人兼人工智能研究院院長李曉林給記者舉了一個例子：“我曾經參加過一個實驗，對美國周邊某種瀕危海象的圖片特征進行深度學習，以此來為動物保護協會識別、去重、入庫和統計這種海象的數量。全球這種海象的數量一共2000多頭，個體表面差別很小，在這種情況下只能采用小數據方法訓練模型。”
另一方面，隨著深度學習算法的發展，數據價值不斷被挖掘，同時，像開頭所述的“數據投毒”等網絡攻擊使得數據治理的工作量加大，對機器處理復雜數據的能力也提出了更高的要求。
“隨著人工智能從感知走向認知，逐漸進入到商業本質，信息處理的維度使得人工智能進入到深水區。”天云數據CEO雷濤告訴記者，“我們開始接觸到信息化系統因為流程處理所沉淀的小數據，這些交易、流程中的數據價值密度更高，比圖像視覺等傳統信號體系復雜得多，因此需要認知層的人工智能基礎設施來挖掘其中的含義。”
雷濤認為，在真正擁有推理和解決問題的強人工智能到來之前，在問題泛化表達能力出現之前，小數據可以用于進行數據本身的優化。在機器模型建立的環節，需要大量的人借助先驗知識的小數據和材料數據做交互，比如數據衍生、數據升維、數據降維，都是一些基于答案的數據或是基于業務的顯性特征，利用算力和數據之間做交互，來完成模型更有效的學習。
基于小樣本數據的分析偏差也是顯而易見的，李曉林告訴記者，避免小數據方法出現失誤，勢必需要豐富的人類先驗知識作為支撐，進行遷移學習。
“當下對小數據方法的重視并不意味著就摒棄了基于大數據的模型訓練。”洞見科技CEO姚明表示，目前小數據模型主要用于和大數據模型的交叉核驗，在二者相結合的情況下完善模型。
本文由培訓無憂網AAA教育專屬課程顧問整理發布，希望能夠對想參加北京大數據分析培訓的學生有所幫助。更多大數據分析培訓課程資訊歡迎關注培訓無憂網大數據人工智能培訓頻道或添加老師微信：15033336050

注：尊重原創文章,轉載請注明出處和鏈接 http://www.hebeijilong.cn/news-id-11383.html 違者必究！部分文章來源于網絡由培訓無憂網編輯部人員整理發布,內容真實性請自行核實或聯系我們，了解更多相關資訊請關注人工智能頻道查看更多，了解相關專業課程信息您可在線咨詢也可免費申請試課。關注官方微信了解更多：150 3333 6050

相關新聞