當前位置: 華文世界 > 科技

數據要素產業鏈值得重視

2024-11-30科技

第一部份:數位經濟概述

1.1 數位經濟的定義和內涵

數位經濟是以數位化的知識和資訊為關鍵生產要素,以現代資訊網路為重要載體,以資訊通訊技術的有效使用為效率提升和經濟結構最佳化的重要推動力的一系列經濟活動。它涵蓋數位產業化和產業數位化兩個方面。數位產業化是指資訊通訊技術產業,包括電子資訊制造業、電信業、軟體和資訊科技服務業、互聯網行業等;產業數位化則指傳統產業套用數位技術所帶來的變革,透過數位技術改造傳統產業,提高生產效率和創新能力。

1.2 數位經濟的發展歷程和現狀

數位經濟伴隨資訊通訊技術的演進而發展。上世紀90年代,以互聯網為代表的資訊通訊技術開始商業化套用,標誌著數位經濟的起步;21世紀初,以行動網際網路、社群網路、電子商務為代表的套用創新不斷湧現,推動數位經濟進入快速發展期;近年來,以人工智慧、物聯網、區塊鏈為代表的新一代資訊科技加速突破,大數據、雲端運算等新型基礎設施建設提速,數位經濟進入深化拓展期。

從全球看,2022年數位經濟規模達47.6萬億美元,占全球GDP的45.9%。美國、中國是數位經濟的引領者,2022年美國數位經濟規模達17.8萬億美元,占GDP比重53.6%;中國數位經濟規模達7.1萬億美元,占GDP比重39.8%。歐盟、日本、南韓等發達經濟體數位化轉型也在提速,數位經濟占GDP比重均超35%。

中國高度重視發展數位經濟。近年來,中國數位經濟保持高速增長,2022年規模達45.5萬億元,占GDP比重39.8%,數位經濟核心產業增加值同比增長9.2%。電子商務、移動支付、共享經濟等新業態新模式蓬勃興起,催生了阿裏巴巴、騰訊、字節跳動等一大批具有全球影響力的數位經濟領軍企業。"東數西算"工程加速實施,國家樞紐節點和骨幹網路進一步完善。同時,數位治理體系建設不斷加強,陸續出台數據安全法、個人資訊保護法、平台經濟反壟斷指南等一系列法律法規。

1.3 數位經濟對傳統經濟的影響和變革

數位經濟的發展,正在從生產、流通、分配、消費等多個環節重塑傳統經濟形態,並催生出大量的新產業、新業態、新模式。

第二部份:數據——數位經濟的石油

2.1 數據的定義、特征和分類

數據是數位經濟時代最重要的生產要素之一,被形象地比作"21世紀的石油"。廣義的數據泛指一切客觀事物的數位化表示,包括文本、圖片、音視訊、傳感器數據等各類資訊,能夠被電腦辨識、儲存和處理。狹義的數據特指經過采集、清洗、加工,能用於分析挖掘的資訊資源。大數據技術的發展,讓海量、多源、異構、時變的數據資源成為推動經濟社會發展的新引擎。

2.2 大數據時代數據的爆發式增長

進入21世紀,特別是智慧型手機、物聯網裝置的廣泛普及,讓數據呈現出爆發式增長態勢。據IDC預測,2020年全球數據總量為47ZB(1ZB=1萬億GB),到2025年將突破163ZB。

2.3 數據采集、儲存、清洗和管理

高品質的數據是大數據套用的前提,涉及數據全生命周期管理。數據采集是數據管理的起點,需要全面采集和獲取結構化、非結構化數據。對內,要采集企業各業務系統、各環節產生的數據;對外,要利用爬蟲技術采集互聯網開放數據,利用傳感器、物聯網采集即時數據,並且透過數據交易獲取第三方數據。采集數據要兼顧廣度、深度和準確性,並對采集行為進行必要的合規審查。

數據儲存是為數據的管理和套用奠定基礎。傳統的關系型資料庫在海量數據場景下,面臨擴充套件性差、查詢分析效率低等問題。大數據時代,分布式儲存、NoSQL資料庫、數據湖等新型數據儲存架構不斷湧現。分布式檔案系統如HDFS能夠提供高吞吐量的數據存取能力;NoSQL資料庫擺脫了關系型資料庫的約束,支持靈活的數據模型和弱事務特性;數據湖透過對源數據的無序儲存,在成本和效能間達成了平衡。混合架構逐漸成為主流,即面向結構化數據采用關系型資料庫,面向海量數據采用HDFS等分布式儲存,面向半結構化和非結構化數據采用NoSQL資料庫。

數據清洗是提高數據品質的重要環節。由於數據來源的多樣性,往往存在不一致、重復、缺失、異常等問題,需要透過一系列處理提升數據的準確性、完整性和一致性。常見的數據清洗方法包括異常值檢測、重復值處理、缺失值填充,以及數據格式轉換、數據脫敏等。數據清洗可以借助Kettle、Informatica等ETL工具實作工作流式處理,將多源異構數據轉換為標準化、關聯化的數據,為後續分析挖掘打下基礎。

數據管理則貫穿采集、儲存、處理、套用的始終。後設資料管理透過主數據、數據血緣、數據字典等,對數據資產進行統一編目管理;數據品質管理透過DQC工具,對關鍵數據的準確性、完整性、一致性進行持續監測和改進;主數據管理透過MDM平台,實作關鍵業務實體數據的統一檢視和集中管控;數據安全與私密保護透過脫敏、加密、存取控制、審計等手段,確保數據全生命周期的安全合規。建立人人都是數據的使用者和貢獻者的數據文化,透過視覺化、數據服務等賦能業務人員,是數據管理向數據治理升級的重要方向。

2.4 資料探勘和數據分析方法

資料探勘和數據分析是發現數據價值的關鍵手段。資料探勘強調從海量數據中發現隱含的、事先未知但又有價值的資訊,主要涉及分類、聚類、關聯、預測等任務。

2.5 數據視覺化和數據套用案例

數據視覺化是數據分析不可缺少的部份。視覺化透過圖形化手段,將數據中蘊含的資訊、模式和規律直觀呈現,幫助人們快速理解數據背後的洞察。視覺化需要遵循準確性、清晰性、美觀性、創新性等原則,運用色彩、布局、互動等設計元素,提升數據展現的吸重力和感染力。

數據分析已成為各行各業提質增效、創新發展的利器,催生出大量套用案例:

(1)零售行業:沃爾瑪利用銷售數據進行商品關聯分析,最佳化貨架陳列,實作精準行銷;亞馬遜利用使用者行為數據進行個人化推薦,提高轉化率和客單價。

(2)金融行業:花旗銀行透過信用卡交易數據分析客戶價值,開展差異化服務;京東金融利用大數據構建銀行風控模型,顯著提升風險辨識能力。

(3)制造行業:奇異利用裝置聯網數據進行預測性維護,減少非計劃性停機時間;格力電器利用生產數據最佳化車間排程,提高生產效率和良品率。

(4)交通行業:滴滴利用海量出行數據進行即時排程,緩解打車難;航聯科技利用機票銷售數據預測客流量,最佳化機票價格和航線網路。

(5)醫療行業:華大基因利用基因測序數據開展精準醫療,支撐個人化診療;平安好醫生利用患者病歷數據進行輔助診斷,提高診斷效率和準確率。

2.6 數據資產化和數據要素市場

數據作為新的生產要素,越來越多地參與價值創造、價值交換和價值分配,數據資產化成為必然趨勢。數據資產是指數據在套用過程中所體現出的財產價值,能夠給數據擁有者帶來持續的收益。數據資產化就是將數據轉化為可確權、可計量、可流通的資產的過程。

2.7 數據安全、私密保護和數據主權

數據是關系國家安全、企業發展、個人私密的戰略性資源。隨著數據規模快速膨脹,跨境數據流動日益頻繁,數據泄露、數據濫用等安全事件也頻發,數據安全成為各國的重大議題。中國高度重視數據安全保護,陸續出台數據安全法、個人資訊保護法等,為維護數據主權提供了法律保障。

數據安全是數位經濟健康發展的底線,貫穿數據采集、傳輸、儲存、處理、銷毀等各個環節。

第三部份:演算法——數位經濟的引擎

3.1 演算法的概念、分類和發展歷程

演算法是解決特定問題確切而完整的計算過程,是數位經濟時代價值創造的關鍵驅動力。

3.2 機器學習演算法:監督學習、無監督學習、強化學習

機器學習是人工智慧的核心,其本質是透過演算法讓電腦系統從數據中自主學習,不斷改進和最佳化模型,提高對未知數據的預測能力。根據訓練數據是否帶有標簽,機器學習主要分為監督學習、無監督學習和強化學習。

3.4 自然語言處理和知識圖譜

自然語言處理(NLP)是人工智慧的核心方向之一。它研究電腦系統如何有效地理解、生成和處理人類語言,賦予電腦處理自然語言的能力。NLP涉及語言學、電腦科學、數學等多個學科,是人機互動的重要橋梁。傳統的NLP技術主要包括分詞、詞性標註、句法分析、語意分析等。這些任務大多基於人工構建的詞典、規則,難以應對口語化、不規範的網路語言。

3.5 電腦視覺和模式辨識

電腦視覺是人工智慧的另一個核心領域。它研究如何讓電腦"看懂"影像和視訊,獲取影像語意資訊,理解場景中的物件、事件和行為。模式辨識則是從數據中自動分析模式的研究領域,涵蓋機器學習、資料探勘等理論方法。二者是相輔相成的,共同構成了人工智慧的感知基礎。

3.6 推薦系統和使用者畫像

推薦系統是數位經濟時代最重要的基礎設施之一。它根據使用者的歷史行為和興趣偏好,利用機器學習演算法自動為其推薦感興趣的資訊和服務,從海量資訊中精準匹配使用者需求,成為電商、社交、資訊等互聯網套用的標配。從協同過濾到基於內容過濾再到組合推薦,推薦系統經歷了三代技術演進,成為學術界和工業界共同關註的熱點。

3.7 區塊鏈和智慧合約

區塊鏈被譽為繼大型電腦、個人電腦、互聯網之後的第四次技術革命浪潮。它透過密碼學原理,在無需中心化控制的前提下,實作網路節點的協調與一致,確保數據的可信流通和價值傳遞,為數位經濟提供了新的信任基礎設施。區塊鏈采用鏈式區塊結構,每個區塊包含多筆交易數據、時間戳和前一區塊的哈希值,從而以密碼學方式保證了數據的不可篡改。區塊鏈網路采用P2P網路拓撲,網路中每個節點都擁有完整的數據拷貝,互為備份,無需中心伺服器。區塊鏈使用共識機制如PoW、PoS實作全網共識,保證了數據在無中心化網路中的一致性。這些特點讓區塊鏈成為價值互聯網的基石。

3.8 演算法的套用場景和案例分析

演算法是數位經濟時代的核心引擎,其套用領域廣泛、套用場景豐富,幾乎滲透到社會經濟生活的方方面面。從消費互聯網到產業互聯網,從數位政府到智慧城市,處處可見演算法的身影。

3.9 演算法的發展趨勢和前沿探索

演算法發展日新月異,新理論、新框架、新套用不斷湧現,總體呈現以下趨勢:一是演算法從淺層模型走向深層模型,讓智慧系統突破人類設計的局限,實作端到端學習;二是演算法從單一模態走向多模態融合,讓智慧系統更全面地理解視聽覺資訊,回答"是什麽"和"在哪裏"的問題;三是演算法從單一任務走向多工協同,讓智慧系統具備更強大的常識推理和遷移學習能力;四是演算法從數據驅動走向知識引導,讓智慧系統告別從零學習,積累可復用的結構化知識;五是演算法從封閉訓練走向開放前進演化,讓智慧系統像人類一樣持續學習、持續成長。總之,未來的演算法將更加復雜、更加自主、更加普適,不斷向通用人工智慧的目標邁進。

3.10 演算法倫理和演算法審計

隨著人工智慧走向深入套用,其潛在風險日益凸顯,引發社會各界對演算法倫理的廣泛關註。演算法倫理是指在人工智慧的設計、開發、部署和使用過程中,所應遵循的道德規範和價值標準。其核心是如何確保人工智慧造福人類,防範智慧系統的失控和濫用。

第四部份:算力——數位經濟的基石

4.1 算力的內涵和評估指標

算力是支撐數位經濟演算法模型訓練和套用的計算能力,是繼土地、資本、勞動力、技術之後的第五大生產要素,是數位經濟時代的戰略資源。從廣義看,算力是數位化時代的算術運算能力,包括CPU、GPU、FPGA、ASIC等處理器的運算速度,也包括記憶體、儲存、網路等資訊處理單元的效能指標;從狹義看,算力主要指芯片在單位時間內完成的浮點運算次數,是衡量電腦系統進行科學計算的重要指標。隨著人工智慧、大數據等新興技術的快速發展,對算力的要求也從單一浮點峰值效能,逐步走向記憶體存取頻寬、互聯頻寬、能效比等多維度綜合評價。

4.2 CPU、GPU與雲端運算

CPU和GPU是支撐通用計算和智慧計算的核心芯片。CPU即中央處理器,是電腦的運算和控制核心。傳統CPU采用馮·諾依曼架構,透過控制器、運算器、記憶體等部件協同工作,擅長邏輯控制和序列處理,在通用計算任務上具有靈活高效的特點。從1971年英特爾推出首款商用微處理器4004,到1993年奔騰問世,再到2017年推出24核至強可延伸處理器,CPU經歷了指令集擴充套件、多核化、片上系統等一系列重大變革,成為IT產業創新發展的核心引擎。

4.3 超級電腦和量子計算

超級電腦是算力的集大成者,透過海量CPU平行計算,在氣候預測、生物制藥、材料模擬等關乎國計民生的重大科學工程領域發揮不可替代的作用。追溯超算發展史,從1964年CDC 6600問世,到1976年Cray-1誕生,再到上世紀90年代"地球模擬器"登頂,超算效能經歷了百萬億次、千萬億次、萬萬億次的躍遷。進入新世紀,中國超算異軍突起,從2010年"天河一號"登頂TOP500,到2013年"天河二號"蟬聯冠軍,再到2016年"神威·太湖之光"以93千萬億次浮點運算的峰值效能重新整理紀錄,標誌著中國超算躍居世界第一梯隊。"天河三號"、"神威·exascale"等E級超算的研發也在加速推進,有望繼續引領超算的發展潮流。

4.4 邊緣計算和霧計算

隨著物聯網、人工智慧的快速發展,數據正從中心向邊緣大規模遷移。Gartner預測,到2025年,超過75%的數據將在邊緣側產生和處理。邊緣計算應運而生,其理念是將計算、儲存、網路等資源下沈部署到靠近資料來源頭的網路邊緣側,就近提供智慧化服務。透過數據在地化處理,邊緣計算在時延、頻寬、私密等方面展現出顯著優勢:一是就近感知和處理,毫秒級時延滿足即時性需求;二是減少數據中心傳輸,節省網路頻寬成本;三是數據在本地儲存分析,保護私密安全;四是分散化自治管理,具備故障隔離和自愈能力。工業互聯網、車聯網、智慧城市等是邊緣計算的典型套用場景。

4.5芯片技術和架構創新

芯片是資訊科技產業的基石,是國之重器。從最早的分立元件,到中小規模、大規模、超大規模積體電路,芯片整合度不斷提高,功能不斷豐富,推動資訊社會加速邁向智慧時代。然而,隨著莫耳定律效應遞減,傳統的平面工藝、馮·諾依曼架構遇到瓶頸,芯片效能和功耗的改善空間日益有限。亟需從新材料、新器件、新工藝、新架構等方面系統突破,開辟芯片創新發展的新賽道。

4.6專用積體電路(ASIC)和可現場編程邏輯閘陣列(FPGA)

ASIC和FPGA是兩類重要的非通用芯片。不同於CPU、GPU等通用處理器,ASIC和FPGA面向特定套用場景,可根據任務特點進行靈活客製,在效能、功耗、成本等方面展現獨特優勢。

4.7異構計算和類腦計算

異構計算將不同指令集、不同體系結構的處理器整合在單個計算平台,發揮各自的特長,實作"1+1>2"的綜合效能提升。相比傳統的CPU同構架構,異構計算透過硬體加速、軟體解除安裝等方式,可顯著提升系統能效。特別是隨著人工智慧、大數據、物聯網等新興套用的崛起,對算力提出了價效比、即時性、靈活性的差異化需求,傳統單一架構的通用芯片已難以適應,異構融合大勢所趨。

4.8神經擬態和存內計算

馮·諾依曼架構采用儲存和計算分離的設計,容易導致頻繁的數據移動和巨大的能耗開銷。隨著數據量爆炸式增長和計算復雜度指數級上升,儲存墻和功耗墻問題日益突出,亟需突破馮·諾依曼瓶頸,探索全新的計算模式。神經擬態計算和存內計算應運而生,有望在後莫耳時代開創效能和能效的新境界。

4.9算力的套用場景和產業圖譜

算力是數位經濟的核心支撐。隨著雲端運算、大數據、人工智慧、區塊鏈等技術的快速演進,呈現出硬體異構、軟體雲化、套用智慧、服務化的趨勢,從科學計算、商業計算,到消費計算,無處不在、無時不有,推動產業加速向智慧化、融合化升級。

4.10算力產業的發展瓶頸和破局之道

盡管中國算力產業取得了長足進步,在超算、雲端運算、人工智慧等領域躋身世界第一梯隊,但產業生態仍不成熟,核心技術受制於人,亟需補齊關鍵領域短板,打造自立自強的現代化產業體系。當前,中國算力產業面臨五大挑戰:

一是高端芯片"卡脖子"。制程工藝受制於光刻機,EDA工具對國外依賴度高,高端通用芯片大量依賴進口,核心專利掌握在國外廠商手中,供給安全面臨嚴峻挑戰。二是軟硬體適配不足。國產芯片與主流開源框架、作業系統的相容適配仍有差距,生態構建尚待完善,影響了國產替代行程。三是算力基礎設施總體不足。與已開發國家相比,中國人均算力規模仍有差距,區域發展不平衡,高效能計算、智慧計算基礎設施亟需加快布局。四是核心演算法對外依存度高。在作業系統、資料庫、中介軟體、AI框架等基礎軟體領域,國外廠商占據了大部份市場份額,存在技術封鎖和斷供風險。五是行業套用深度不夠。算力下沈和智慧化改造有待深化,中小企業對算力的可獲得性不足,行業演算法模型構建尚不成熟,影響了算力價值釋放。

結語:數位經濟的未來展望

數位經濟引領新一輪科技革命和產業變革,重塑全球創新版圖、重構全球經濟結構。縱觀全球,新一輪科技革命和產業變革方興未艾,數位經濟發展進入快車道。5G商用步伐加快,算力基礎設施加速完善,大數據、人工智慧與實體經濟加速融合,智慧制造、無人駕駛、智慧城市等新套用新場景不斷拓展。2022年,全球數位經濟規模達到47.6萬億美元,占GDP比重超45%。數位經濟成為全球經濟恢復發展的關鍵力量。