摘要:數據加工包含數據清洗、數據標注、數據審核等,本質上是提升數據資源質量的過程,數據資源的質量越高其價值越大。由于非結構化數據占比越來越大,對于數據標注行業的需求穩定提升,已經形成一個穩定成長的行業,市場標注行業市場規模不斷擴大,圖像類和語音類需求占比超八成。2022年中國數據標注行業市場規模約為51億元。
一、定義及分類
數據標注是指借助特定軟件標注工具以人工的方式將圖片、語音、文本、視頻等數據內容打上特征標簽,使計算機通過大量學習這些帶有特征標簽的數據,最終具備自主識別特征的一種行為。數據標注技術作為提供訓練數據的必經環節,促進了人工智能的快速發展。常見的數據標注按照數據類型可以分為圖像標注、文本標注及語音標注。
二、商業模式
1、眾包模式
現在數據標注通常采取眾包的模式,眾包模式的優點就是成本較低響應較快。這種式適用較簡單的項目如點點拉框等項目。發布者往往將任務詳細介紹和題目一同發送到平臺上供廣大數據標注兼職人員作答。但眾包模式有一個很明顯的問題就是質量較難把控,每個人對規則的理解不盡相同且不可避免的會有一部分對任務亂答一通,影響項目質量。為此各平臺也會使用一些方式減少問題的產生提高項目質量。比如增加改判環節一道題在答完之后會由他人進行改判如若判錯則不獲得任務報酬,此外為防止錯判維護答題人員利益還會設置申訴環節使答題人員對有疑問的題目進行申訴。設置標注人員級別,標注人員任務正確率較高答題數較多則能慢慢提高等級解鎖更多任務獲得更多的任務報酬且有機會進入改判環節成為改判員。
2、外包模式
外包模式與眾包模式相對是將任務外包給專門的數據標注公司和團隊,在項目一開始會對項目整體進行評估然后針對項目整體進行報價由數據標注公司自行安排培訓安排人手,只需要保證在項目截止日期前保質保量交付數據即可。這種模式的優勢就是數據質量和項目周期有保證。但是響應速度較慢成本較高,因為一開始需要安排競標且平臺需要安排專門的項目人員進行項目對接和項目跟進。現如今國內專門做數據標注的團隊較多,但是大多數只是以工作室和幾十人的小團隊為主且業務類型集中在簡單的拉框圖像標注上。也有一些的較大型的公司如貴州的夢動科技已經形成產業化帶動了當地的發展。又或者是“點我科技”他們自建有平臺可以自研工具同時擔任著數據標注平臺和數據標注公司兩種角色。
三、行業政策
隨著數據要素市場不斷壯大,數據要素市場的各個參與主體都投入到市場運作中。政府作為數據要素市場的管理者,將發揮政策扶持和積極引導作用,推動公共數據擴大開放,構建數據開放平臺。相關政策文件的密集出臺推動我國數據產業迅速發展,技術不斷進步,基礎設施不斷完善,融合應用不斷深入。2024年1月國家數據局等17部門發布《“數據要素×”三年行動計劃(2024-2026年)》中指出:《行動計劃》選取工業制造、現代農業、商貿流通、交通運輸、金融服務、科技創新、文化旅游、醫療健康、應急管理、氣象服務、城市治理、綠色低碳等12個行業和領域,推動發揮數據要素乘數效應,釋放數據要素價值。
四、行業壁壘
1、技術能力壁壘
隨著大模型時代的到來,數據標注行業對技術能力的要求越來越高。企業需要具備強大的數據處理能力,包括數據閉環工具鏈的智能化水平、對大模型/AI算法的理解、數據工程化能力以及基礎設施建設等。這些技術能力的缺乏會限制企業的發展,尤其是在自動化標注和處理復雜數據集方面。
2、場景資源壁壘
數據標注服務需要緊密結合具體的應用場景,這意味著企業必須擁有高質量的場景數據和相應的領域專家或深度用戶。這些資源的獲取和維護需要大量的時間和成本投入,對于新進入者來說,缺乏這些資源會成為進入市場的障礙。
3、行業經驗壁壘
數據標注行業的發展需要積累豐富的行業經驗,這包括對客戶需求的深刻理解、數據標注流程的優化以及與客戶的長期合作關系建立。新進入者缺乏這些經驗,難以快速適應市場變化和客戶需求,從而在競爭中處于不利地位。
五、產業鏈
數據標注位于產業鏈中游,是AI商業化應用中重要的一環。行業的上游為數據源與數據產能,多元數據包括個人數據、企業數據、政府數據等,產能醫院供應方包括標注自愿提供方和硬件資源供應商。中游為數據標注廠商,包括AI基礎數據服務商,如海天瑞聲等。下游則是人工智能的應用,涉及智慧政務、金融、工業、自動駕駛等領域。其中,處于中游的AI基礎數據服務商主要進行數據的采集與標注,面向AI的數據治理平臺服務商則使用數據治理的各組件管治多源異構數據,使其形成數據資產,提高數據質量。二者處理后的數據可直接提供給下游用于AI訓練,從而加速AI落地。


















六、行業現狀
數據加工包含數據清洗、數據標注、數據審核等,本質上是提升數據資源質量的過程,數據資源的質量越高其價值越大。具體分環節看:企業標配的能力,基本在數據收集存儲環節就已經完成;數據標注:由于非結構化數據占比越來越大,對于數據標注行業的需求穩定提升,已經形成一個穩定成長的行業,市場標注行業市場規模不斷擴大,圖像類和語音類需求占比超八成。2022年中國數據標注行業市場規模約為51億元。
七、發展因素
1、有利因素
(1)人工智能技術的飛速發展
隨著人工智能(AI)技術的不斷進步,尤其是計算機視覺和自然語言處理等領域的應用日益廣泛,對高質量、專業化的數據標注需求急劇增加。數據標注作為AI技術發展的基礎,其市場需求隨之增長。例如,圖像和視頻標注的復合年增長率接近17%,預計到2024年數據標注市場的價值將達到486億美元。
(2)大模型時代的來臨
大模型(如GPT-3等)的開發和應用需要大量的高質量數據作為訓練基礎。數據標注服務貫穿大模型的全生命周期,上下游合作關系更為緊密,這為數據標注行業帶來了新的增長點。大模型范式的涌入使得自動化標注效率進一步提升,同時也對標注人才提出了更高的要求,如高學歷多領域成為硬指標。
(3)政策支持和市場需求
中國政府對人工智能產業的大力支持,以及各行各業對智能化轉型的需求,為數據標注行業提供了廣闊的市場空間。例如,智能駕駛、醫療健康、金融科技等領域對數據標注的需求不斷增長,推動了行業的擴張。此外,合成數據作為新興賽道,其增速最高,為數據標注行業帶來了新的增長動力。例如《數據經濟促進共同富裕實施方案》、《深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》、《“數據要素×”三年行動計劃(2024-2026年)》等政策。
2、不利因素
(1)行業洗牌與競爭加劇
隨著市場規模的擴大,更多的參與者進入數據標注行業,導致市場競爭日益激烈。由于行業準入門檻相對較低,許多中小規模的數據服務供應商涌現,這導致市場飽和,使得中小型供應商面臨嚴峻的生存壓力。同時,行業內部會出現一波“洗牌期”,那些無法適應市場變化、提升技術水平和服務質量的企業會被淘汰。
(2)技術門檻提升與人力成本增加
隨著AI企業對數據標注的需求變得更加高質量、精細化和定制化,數據標注行業的技術門檻也在提高。這要求數據服務供應商具備更強的技術實力和精細化管理能力。同時,人力成本的上升也對數據標注企業構成了壓力,尤其是在勞動力密集型的標注任務中,成本控制成為企業需要重點關注的問題。
(3)數據安全與隱私保護問題
數據標注涉及大量敏感信息的處理,如何確保數據的安全性和隱私保護成為行業的一個重要挑戰。在眾包、轉包模式下,數據的安全性難以得到充分保障,存在數據泄露的風險。此外,對于金融機構和政府部門等特殊行業的需求方來說,數據的安全性尤為重要,數據標注企業需要建立完善的數據安全防護機制,以避免潛在的法律風險和信譽損失。
八、競爭格局
AI行業的蓬勃發展,對數據的需求呈井噴式增長,數據標注行業是伴隨著AI的興起而產生的一個新興行業。目前,我國國內市場越來越多的互聯網巨頭公司開始組建自己的數據標注平臺,京東(京東眾智)、百度(百度眾測)都已經擁有自己的標注平臺和工具。頭部公司之外,國內近年興起眾多數據標注公司,如龍貓數據、Testin云測、倍賽BasicFinder、數據堂等,這些公司僅次于第一梯隊,都具有相當的規模。
海天瑞聲是我國領先的訓練數據專業提供商。自2005年成立以來,公司致力于為AI產業鏈上的各類機構提供算法模型開發訓練所需的專業數據集。公司所提供的訓練數據覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個核心領域,全面服務于人機交互、智能駕駛、智能家居、智慧城市等多種創新應用場景。2023年上半年公司收入為0.74億元。
九、發展趨勢
置信度分數最高的片段用于對標簽的初始化,呈現給標注者。標注者可以從機器生成的多個候選標簽中為當前片段選擇合適的標簽,或者對機器未覆蓋到的對象添加分割段。AI輔助標注技術的應用,能夠極大地降低人力成本并使標注速度大幅提升。目前,已經有一些數據標注公司開發了相應的半自動化工具,但是從標注比例來看,機器標注占30%左右,而人工標注占比達到70%左右。因此,數據標注工具的發展趨勢是開發以人工標注為主機器標注為輔的半自動化標注工具,同時減少人工標注的比例,并逐步提高機器標注的占比。
智研咨詢倡導尊重與保護知識產權,對有明確來源的內容注明出處。如發現本站文章存在版權、稿酬或其它問題,煩請聯系我們,我們將及時與您溝通處理。聯系方式:gaojian@chyxx.com、010-60343812。
![2024年中國數據標注行業發展現狀及趨勢研判:數據標注發展潛力巨大,細化數據標注成為行業未來發展趨勢[圖]](http://img.chyxx.com/images/2022/0408/1ba88a0bac4b4a65439b806124f6fc0f4ab03cad.png?x-oss-process=style/w320)
2024年中國數據標注行業發展現狀及趨勢研判:數據標注發展潛力巨大,細化數據標注成為行業未來發展趨勢[圖]
數據標注是指借助特定軟件標注工具以人工的方式將圖片、語音、文本、視頻等數據內容打上特征標簽,使計算機通過大量學習這些帶有特征標簽的數據,最終具備自主識別特征的一種行為。數據標注技術作為提供訓練數據的必經環節,促進了人工智能的快速發展。常見的數據標注按照數據類型可以分為圖像標注、文本標注及語音標注。
![預見2022:中國數據標注與審核行業產業鏈全景、發展歷程、市場規模、競爭格局及發展趨勢分析[圖]](http://img.chyxx.com/images/2022/0330/ce25a2275c336b52d58303ed80fb7924b3fd1022.png?x-oss-process=style/w320)
預見2022:中國數據標注與審核行業產業鏈全景、發展歷程、市場規模、競爭格局及發展趨勢分析[圖]
2015-2021年,我國數據標注與審核行業市場規模保持穩步增長態勢,2021年達到44.40億元。2015年以來,我國AI行業尚處在啟動期,預計在之后的幾年里,伴隨AI戰略被更多企業認同,更多資金和資源的投入,以及各項技術的實際應用落地,我國數據標注與審核行業將延續高速增長態勢。