主頁 > 聚焦改革 > 數字經濟

如何推動高質量數據建設,助力人工智能健康發展?

時間:2022-07-22 13:47 來源:思客 作者:梁正

  日前,國務院印發《關于加強數字政府建設的指導意見》,就主動順應經濟社會數字化轉型趨勢,充分釋放數字化發展紅利,全面開創數字政府建設新局面作出部署。

  數字化轉型是主流趨勢,數字政府建設也是當前的重點領域。數據是數字化轉型的前提和基礎,然而我們目前的海量數據信息還存在數據積累少、數據標準不統一、數據質量參差不齊、數據開放使用規則不清晰等突出問題。如何推動高質量數據建設,助力人工智能健康發展?思客邀請清華大學人工智能國際治理研究院副院長、人工智能治理研究中心主任梁正教授深入探討這一話題。

  隨著數字化浪潮的不斷推進,數字化、智能化成為引領未來經濟的重要動力。黨中央高度重視發展數字經濟,國家“十四五”規劃和2035年遠景目標綱要作出數字化發展戰略,部署了數字經濟、數字社會、數字政府建設目標。數字經濟已成為全球經濟社會發展的重要驅動力。而人工智能作為新一輪科技革命和產業變革的重要驅動力量,正深刻影響著經濟社會的發展進程。

  人工智能的發展還存在不成熟的地方,當前談得最多的是不斷提升人工智能技術的安全性、可靠性和可控性,但最重要的是要把 AI的賦能作用和產業發展結合起來,讓AI成為新基建的一部分,打造數字新基建,利用信息技術推動產業數字化轉型。

  目前推動產業數字化轉型還需要解決幾個問題,一是我們在很多產業領域沒有數據積累,德國的很多企業在20年前就已經保留著生產過程相關的各類數據文本,檔案很全,但是我們在很多行業領域都是口傳心授,缺乏數據記錄。二是數據標準不統一,質量不高,包括我們在公共領域的數據,在一些數字化走得比較靠前的城市,比如上海、杭州、深圳等,也仍然存在數據標準和格式不統一,數據歸集難度大的問題。三是數據開放使用規則不清晰,這又涉及到治理問題。

  這方面要注意一個誤區,不是解決了這些問題后,就一定會發揮作用。就像我們建了很多機場,沒有飛機,沒有乘客,它能產生效益嗎?所以數字基建關鍵是要跟產業應用結合,不管是公共需求還產業需求。

  在產業數字化方面現在相關部門也有一些共性技術的支持。例如,我們的機床行業是一個大而散的行業,幾乎可以覆蓋制造業的全部領域,小到螺絲釘、大到高鐵、飛機、船舶、火箭,其產品乃至設備的制造都離不開機床。

  我們過去的機床行業總體上是比較落后的,雖然有“十八羅漢廠”這樣的骨干企業,但是在智能化轉型中,我們的企業和德國、日本、瑞士一些領先的機床廠家相比,競爭力還是不夠的,所以就導致整個機床行業比較分散,龍頭企業的實力不夠強。

  而隨著中國經濟體量和市場規模的擴張、生產制造的需要,企業中數控機床的數量在不斷攀升。數控機床的發展需要比較好的數字化基礎,現在中國機床工具工業協會正在探索推動一項創新性的智能化服務,用工業云的方式收集分散在各個企業、機床上的數據,經過數據整合、學習對工藝參數等優化后再分發給企業。這有點像在機床領域建了個安卓系統,定期優化升級,可以大大提高工業生產率。

  越是傳統的行業,其實做數字化、智能化空間越大。比如過去農業效率很低,在采集、儲存、流通環節都會產生大量浪費,現在通過智慧農業、數字農業建設,增加了農業附加值。在這方面數字產業園是個很好的嘗試,利用可以開放的公共數據,吸引相關產業匯聚,利用優質資源,推動企業數字化、智能化發展和產業聚集。智能化轉型未來是一個必然,我們的產業發展有很大前景,目前中國經濟面臨“三重壓力”,實現數字化和智能化轉型,就能激發數字經濟發展新動能。

  “人工智能有多少智能就有多少人工”,這雖然是句調侃的玩笑話,但說明人工智能也存在很多問題。比如自動駕駛還無法完全脫離人的操控,訓練算法所需的場景數據仍需要人來標注。盡管機器具備了自我學習的能力,但在很大程度上仍需要人來引導,在利用大量的數據訓練后才能展現出一些效果。在這樣的背景下,倘若標注者自身的學歷和能力參差不齊,那人工智能自我學習的效果也大不相同,這樣的情況在醫療、建筑這種專業性較強的領域更為突出。如果我們期待以這樣的方式推動工業領域的高質量數據建設,在我看來這是不可能的。

  推動高質量數據建設,到底該怎么做?目前在多個地方已經出現一些有益嘗試。比如深圳龍崗建了一個AI小鎮,按照數字化、智能化產業發展所需要的資源對AI小鎮的底層架構進行系統化配置,比如一些公共部門的數據,在匯集和整理后先面向社會開放使用。

  目前全國已經有約15個省市區出臺了數據方面的管理條例或地方性政策,這是在中央大力推動下取得的進展。不論是數字經濟還是人工智能試驗區,像深圳這樣的中國特色社會主義先行示范區要勇做“排頭兵”,積極探索數據要素領域的產權制度、公共數據開放、流通交易和數據安全等管理機制。

  現代社會中的數據安全問題,特別是一些場景下公平問題尤為突出,相關頂層設計的重要性也愈發凸顯。比如數據安全涉及個人財產,這類問題的治理難度非常大。此外還有倫理規范方面的問題,在數據安全領域,我們該如何把控倫理的底線,這些都對我們的工作提出巨大挑戰。2021年,歐盟頒布了《人工智能法》草案,雖然目前仍在征集意見中,但這是全球范圍內關于人工智能的首部系統化法律,也算是在這方面的一大突破。

  自2021年11月1日起,我國也開始施行《中華人民共和國個人信息保護法》,這部法律與《數據安全法》等其他幾部法律共同構成了我國數據安全底線治理的基礎。特別是醫療、金融、司法這樣一些涉及到個人權益乃至人身安全的重要領域,運用相關算法進行自動化決策要非常小心。正如前文所說,這些領域內主流的機器訓練方法,不具備可解釋性,只是一個數據擬合的結果,因此存在出錯概率。

  我認為,算法運用要合乎倫理,要保障底線、公平且保護隱私,不能夠侵犯個人權益。特別是在一些個人領域,針對相關算法公眾要有問責權,針對安全主體責任要定期審查,必要時應考慮引入第三方的安全評估制度。針對一些數據原因造成的決策錯誤,我們也應引入人工干預糾偏并復核。因此,從底層技術的角度來看,最終我們需要建立的是一個綜合性的人工智能治理體系。

  數據是數字化轉型的前提和基礎,這個數據既包括公共數據,也包括平臺企業所掌握的消費者個人數據,所以在管理、使用、流動上形式是不一樣的,相應的制度和治理機制設計也應有所不同。

  總的來看,對于人工智能治理,一是技術本身要可解釋可控,二是有時可能要人工干預,這是一個多元協同治理的概念。當前我國針對人工智能特定應用場景已經出臺了管理措施,如《互聯網信息服務算法推薦管理規定》。未來應從算法分級分類管理的角度出發,按照高風險高影響、高風險低影響、低風險高影響、低風險低影響劃分,針對不同領域、不同場景下的應用采用不同的治理工具組合。

  人工智能治理問題是在高速發展中出現的問題,所以我們將其歸結為新興技術的治理,適用于“敏捷治理”的概念。對它要有一個客觀的態度,不能視其為洪水猛獸,也不能放任不管,而是要密切地去了解其進展,然后引入相關利益方,根據它的發展演變,不斷地去調適治理模式、創新治理手段。(作者:梁正 清華大學人工智能國際治理研究院副院長、人工智能治理研究中心主任)

成片免费的禁v影片