數(shù)據(jù)標注是對未經(jīng)處理的語音、圖片、文本、視頻等數(shù)據(jù)進行轉(zhuǎn)義、打點、拉線、拉框等操作,將這些數(shù)據(jù)標注為電腦可以識別的信息,然后上傳到數(shù)據(jù)庫,以供人工智能使用。隨著人工智能技術(shù)的不斷進步和應用場景的拓展,數(shù)據(jù)標注產(chǎn)業(yè)將迎來更加廣闊的發(fā)展空間和市場機遇。
一、數(shù)據(jù)標注的定義
數(shù)據(jù)標注,也被稱為數(shù)據(jù)標定、數(shù)據(jù)注釋,是指對文本、圖像、語音、視頻等待標注數(shù)據(jù)進行歸類、整理、編輯、糾錯、標記和批注等操作,為機器學習和人工智能算法提供訓練樣本。由于數(shù)據(jù)的質(zhì)量和數(shù)量直接影響大模型的智能水平,因此數(shù)據(jù)標注也被視作人工智能的基石。數(shù)據(jù)標注的方法和類型多種多樣,包括但不限于以下幾種:
二、數(shù)據(jù)標注行業(yè)發(fā)展政策
數(shù)據(jù)標注產(chǎn)業(yè)是對數(shù)據(jù)進行篩選、清洗、分類、注釋、標記和質(zhì)量檢驗等加工處理的新興產(chǎn)業(yè)。培育壯大數(shù)據(jù)標注產(chǎn)業(yè)對于提升數(shù)據(jù)供給質(zhì)量,推動人工智能創(chuàng)新發(fā)展具有重要支撐作用。為促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展,發(fā)展改革委等四部門發(fā)布了《關(guān)于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》,提出到2027年,數(shù)據(jù)標注產(chǎn)業(yè)規(guī)模大幅躍升,培育一批具有影響力的科技型數(shù)據(jù)標注企業(yè),形成相對完善的數(shù)據(jù)標注產(chǎn)業(yè)生態(tài)。
三、數(shù)據(jù)標注行業(yè)發(fā)展現(xiàn)狀
1.全國數(shù)據(jù)生產(chǎn)總量
在數(shù)據(jù)生產(chǎn)方面,我國數(shù)據(jù)生產(chǎn)規(guī)模大、范圍廣,增長速度快。2023年全國數(shù)據(jù)生產(chǎn)總量達32.85澤字節(jié)(ZB),同比增長22.44%。數(shù)據(jù)規(guī)模的快速增長,主要得益于5G、AI、物聯(lián)網(wǎng)等技術(shù)的創(chuàng)新發(fā)展以及智能設備的規(guī)模應用。2024年全國數(shù)據(jù)生產(chǎn)總量將達到40.22澤字節(jié)(ZB),2025年達到48.26澤字節(jié)(ZB)。
2.數(shù)據(jù)標注市場規(guī)模
數(shù)據(jù)標注是指對收集到的、未處理的原始數(shù)據(jù)或初級數(shù)據(jù)(包括語音、圖片、文本、視頻等類型)進行加工處理,并轉(zhuǎn)換為機器可識別信息的過程。當前,我國人工智能技術(shù)的快速發(fā)展正推動數(shù)據(jù)標注市場規(guī)模增加。2023年中國數(shù)據(jù)標注市場規(guī)模達到約60.8億元,較上年增長19.69%。2024年中國數(shù)據(jù)標注市場規(guī)模將達到77.3億元,2025年達到102.1億元。
3.AI大模型市場規(guī)模
數(shù)據(jù)標注是機器學習和人工智能領(lǐng)域不可或缺的一部分。通過標注數(shù)據(jù),可以訓練出更加準確和智能的模型。2023年中國AI大模型市場規(guī)模為141.34億元,較上年增長83.92%。2024年中國AI大模型市場規(guī)模將達到294.16億元,2025年達到495.39億元。
4.數(shù)據(jù)標注企業(yè)排名
國內(nèi)數(shù)據(jù)標注行業(yè)企業(yè)主要分為兩類,分別是以百度、阿里、京東、騰訊等為代表的科技巨頭和以海天瑞聲、云測數(shù)據(jù)、星塵數(shù)據(jù)、⻰貓數(shù)據(jù)數(shù)據(jù)堂等為代表的專業(yè)型服務商。在競爭格局方面,百度智能云、海天瑞聲、云測數(shù)據(jù)等大型企業(yè)和專業(yè)機構(gòu)憑借先進的技術(shù)、豐富的經(jīng)驗和強大的資源,占據(jù)了市場的主導地位。
四、數(shù)據(jù)標注行業(yè)重點企業(yè)
1.云測數(shù)據(jù)
北京云測信息技術(shù)有限公司創(chuàng)立于2011年,是一家以人工智能技術(shù)驅(qū)動的企業(yè)服務平臺,為全球超過百萬的企業(yè)及開發(fā)者提供云測試服務、AI訓練數(shù)據(jù)服務、安全服務。在全球產(chǎn)業(yè)化升級浪潮中,Testin云測通過為企業(yè)客戶提供核心技術(shù)、產(chǎn)品工具和專業(yè)人才三位一體的綜合服務,加速企業(yè)移動化、數(shù)字化、智能化轉(zhuǎn)型升級的進程,為企業(yè)的長久發(fā)展提供助力,釋放企業(yè)創(chuàng)新力量,賦能企業(yè)改變世界。
2.海天瑞聲
自2005年成立以來,海天瑞聲始終致力于為AI產(chǎn)業(yè)鏈上的各類機構(gòu)提供算法模型開發(fā)訓練所需的專業(yè)數(shù)據(jù)集。經(jīng)過多年發(fā)展,公司已成為人工智能基礎(chǔ)數(shù)據(jù)服務領(lǐng)域具有較強國際競爭力的國內(nèi)頭部企業(yè)。公司所提供的訓練數(shù)據(jù)涵蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個核心領(lǐng)域,全面服務于人機交互、智能家居、智能駕駛、智慧金融、智能安防等多種創(chuàng)新應用場景。2024年前三季度,海天瑞聲營業(yè)收入為1.50億元,同比增長44.90%,歸母凈利潤為378.87萬元,同比增長111.80%。
分產(chǎn)品來看,2023年公司主營業(yè)務中,智能語音收入1.03億元,占營業(yè)收入的60.44%;計算機視覺收入0.47億元,占營業(yè)收入的27.54%;自然語言收入0.15億元,占營業(yè)收入的8.92%;訓練數(shù)據(jù)相關(guān)的應用服務收入0.05億元,占營業(yè)收入的3.09%。
3.龍貓數(shù)據(jù)
北京安捷智合科技有限公司(以下簡稱“龍貓數(shù)據(jù)”)成立于2014年,是一家專業(yè)的AI數(shù)據(jù)服務公司。公司坐落于北京中關(guān)村科技園,在廣州、河北、上海等地設立分支機構(gòu),立足AI數(shù)據(jù)服務,致力于為整個AI領(lǐng)域提供最專業(yè)數(shù)據(jù)服務。龍貓數(shù)據(jù)旗下?lián)碛斜姲脚_「龍貓眾包」:移動端APP以及Web端標注平臺,其中眾包用戶已突破400萬,單日可完成百萬量級以上的數(shù)據(jù)樣本任務,可滿足不同領(lǐng)域的多種定制化數(shù)據(jù)需求。龍貓數(shù)據(jù)放眼全球,不斷關(guān)注技術(shù)更新,適配新的需求,在推進數(shù)據(jù)服務領(lǐng)域取得更大的進步的同時,也將反哺其標注系統(tǒng)的完善,為全球AI企業(yè)提供更優(yōu)質(zhì)的數(shù)據(jù)服務。
4.標貝數(shù)據(jù)
標貝(青島)科技有限公司是國內(nèi)領(lǐng)先的智能語音交互及AI數(shù)據(jù)服務方案提供商。成立于2016年,總部位于青島,并在北京、新加坡、中國香港、深圳、杭州、長春、青島設立分支機構(gòu)。作為一家以AI技術(shù)創(chuàng)新驅(qū)動的企業(yè),標貝科技擁有業(yè)內(nèi)先進的AI語音交互技術(shù)及高精度數(shù)據(jù)采標處理技術(shù),創(chuàng)新打造多場景應用的語音交互方案,包括通用場景的語音合成和語音識別,以及TTS音色定制,聲音復刻,情感合成和聲音轉(zhuǎn)換在內(nèi)的語音技術(shù)產(chǎn)品;AI數(shù)據(jù)業(yè)務涵蓋語音合成、語音識別、圖像視覺、NLP、3D點云等數(shù)據(jù)服務。
5.數(shù)據(jù)堂
數(shù)據(jù)堂成立于2011年,是國內(nèi)首家上市的人工智能數(shù)據(jù)服務企業(yè),致力于為AI及大數(shù)據(jù)領(lǐng)域公司提供訓練數(shù)據(jù)集、數(shù)據(jù)采集與標注定制服務、標注平臺部署等一體化數(shù)據(jù)解決方案。數(shù)據(jù)堂擁有十年以上人工智能數(shù)據(jù)服務經(jīng)驗,深刻理解多元業(yè)務場景的數(shù)據(jù)需求。依靠自建成熟穩(wěn)定的數(shù)據(jù)采集標注工具及自動化數(shù)據(jù)處理能力,為不同領(lǐng)域企業(yè)提供智能駕駛、智能客服、智能制造、新零售、智能醫(yī)療等多場景數(shù)據(jù)解決方案。
五、數(shù)據(jù)標注行業(yè)發(fā)展前景
1.政策扶持
近日,國家發(fā)展改革委等四部門聯(lián)合發(fā)布了《關(guān)于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》,明確提出到2027年,數(shù)據(jù)標注產(chǎn)業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產(chǎn)業(yè)規(guī)模大幅躍升,年均復合增長率超過20%。這一政策為數(shù)據(jù)標注產(chǎn)業(yè)提供了明確的發(fā)展方向和強有力的支持。
2.技術(shù)創(chuàng)新與產(chǎn)業(yè)升級
自動化標注技術(shù):未來,自動化標注技術(shù)、智能審核技術(shù)等將得到進一步發(fā)展和應用。這些技術(shù)將大幅提高標注效率和準確率,從而降低成本。半自動化標注工具:數(shù)據(jù)標注工具的發(fā)展趨勢是開發(fā)以人工標注為主、機器標注為輔的半自動化標注工具。通過AI模型對數(shù)據(jù)進行預處理,然后由標注人員在此基礎(chǔ)上做一些校正,可以極大地提高標注效率。高技術(shù)含量與高知識密度:新一代數(shù)據(jù)標注具備高技術(shù)含量、高知識密度和高價值應用的“三高”特性。從業(yè)者將出現(xiàn)高學歷背景和多學科融合的特點,推動數(shù)據(jù)標注產(chǎn)業(yè)向知識密集型產(chǎn)業(yè)轉(zhuǎn)變。
3.市場需求快速增長
隨著人工智能技術(shù)的廣泛應用和模型性能提升的需求不斷增加,數(shù)據(jù)標注市場規(guī)模持續(xù)擴大。自動駕駛、醫(yī)療影像分析、智能客服等領(lǐng)域?qū)?shù)據(jù)標注的需求日益增長,推動了數(shù)據(jù)標注產(chǎn)業(yè)鏈的快速發(fā)展。