如何擁抱大數據時代
——訪中國人民大學中國調查與數據中心主任袁衛
袁衛 中國人民大學中國調查與數據中心主任,曾任中國人民大學常務副校長。現任第六屆國務院學位委員會應用經濟學學科評議組、統計學學科評議組召集人,教育部社會科學委員會委員、中國統計教育學會副會長兼高校分會會長、全國應用統計專業碩士教育指導委員會常務副主任。
什么是大數據?也許你不能準確地給它下一個定義,但是,你知道或者不知道,它就在那里,已經滲透到你工作、生活的方方面面。我們該如何應對這場被一些人稱為“第四次科技革命”的全球新競爭?又如何培養適應大數據時代要求的高層次人才?日前,記者就此采訪了中國人民大學中國調查與數據中心主任、中國人民大學原常務副校長袁衛教授。
中國擁有數據資源優勢
記者:對于老百姓而言,大數據還是個新詞匯,能否介紹一下大數據產生的時代背景以及目前國內外研究、應用的狀況?
袁衛:在上世紀80年代初,就已經有了大數據的概念和相關應用,但是它深入社會和百姓的視野,則是最近幾年的事情。2012年,美國政府由白宮牽頭,啟動了一個“大數據發展計劃”,這個計劃的推出被視為進入大數據時代的標志性事件,其重要性堪比1992年美國政府推出的“信息高速公路計劃”(被視為進入網絡時代的標志)。在相似的時間,歐盟各國陸續開放了很多政府數據,日本也啟動了一個大數據項目,聯合國2012年發布大數據報告,全球掀起了大數據研究和應用的熱潮。
大數據的發展,是以網絡和計算機技術的高速發展為依托的。1965年英特爾創始人之一的摩爾先生提出,未來的網絡計算機發展,大體上每隔1年到2年,等面積集成電路中的晶體管數量將會增加一倍,即計算速度會提高一倍,同等的計算,成本會降低一半。經過近50年的實踐,驗證了摩爾先生的預測,也就是人們常說的“摩爾定律”。計算機和網絡科技的高速發展,使得大量網絡數據,包括音頻的、視頻的、圖片的、文本的各種各樣的數據,得以保存,并轉化為我們可以深入分析的數據。于是,大數據的研究和應用也就水到渠成了。
記者:在大數據這個領域,我們和發達國家的差距大嗎?
袁衛:上世紀八九十年代,我們在很多科技領域和國外差距很大,但是進入互聯網時代以后,這種狀況逐漸改觀。進入大數據時代,我們可進一步縮小與美國等科技發達國家的差距,甚至具有后發優勢,原因有三個方面:其一,在互聯網時代,各種最先進的技術可以快速傳播,基本上可以做到全球同步;其二,和微軟的操作系統等軟件不同,大數據絕大多數軟件是開源的,很多網絡技術也是公開的,中國的科學技術與教育工作者,只要具有足夠的智慧和能力,完全可以追趕甚至在某個領域超過美國;其三,我們在數據資源上具有優勢。中國有13.5億人,13.5億個活動主體組織了各種社會經濟關系,建立起各種社會、網絡聯系,在各種社會經濟活動中產生大量的數據,這些數據是可以充分挖掘的資源。我們起步稍晚,但是具有后發優勢,在某些領域甚至可以達到國際先進水平,比如中國推進的智慧城市建設就很不錯,還有微信社交平臺、阿里小貸等,體現了中國的特色。
統計學科迎來“最好的時期”
記者:您是統計學方面的權威專家。在您看來,大數據對于統計學的發展有何影響?
袁衛:統計學就是數據科學,大數據對統計學的發展影響巨大。我個人認為,大數據對于統計學的發展,既是機遇又是挑戰。
說它是機遇,是因為大數據研究和應用會帶來大量人才需求,這對統計學的發展是一個巨大的利好,可以說,目前統計學發展正處于歷史上最好的時期。這幾年,從全國范圍看,統計學專業畢業生就業狀況都不錯,今后會更好。
說它是挑戰,是因為大數據可能部分顛覆傳統的統計方法。比如有人認為,傳統的統計方法講究抽樣,但是大數據使得我們可以對接近總量的數據進行分析,這樣進行抽樣調查的需求就會減少;還有人認為,傳統的統計分析注重因果關系,但大數據情況下,只需明確兩者之間有關系即可。另外,過去強調分析的準確性,而在大數據情況下,允許存在一定的誤差,等等。
我認為,大數據對統計學帶來的上述挑戰確實存在,但是不會導致傳統抽樣調查的需求減少。因為大數據雖然數據量很大,但絕大多數情況下這些大樣本都不是隨機的,推斷總體都有系統偏差,因而抽樣調查等統計方法仍然是不可取代的。此外,在很多時候,科研和商業應用、科學決策還是需要進行準確的統計分析的。
從人才培養的角度看,統計學在教學內容、教學方法、人才培養模式等方面需要進行變革,以適應大數據時代的人才素質要求,這是統計學科發展面臨的另一挑戰。
大數據應用是把雙刃利劍
記者:大數據在商業以及城市安全防范等領域已經有很多應用的成功案例,大數據將會給教育領域帶來怎樣的變革?
袁衛:大數據將對教育產生非常深遠的影響。目前可以預見的,我想主要有兩個方面:一是通過大數據,分析學生成長環境、興趣愛好、能力特長等,有利于教育者對學生加深了解,有利于因材施教,使得根據學生個人興趣、特長、能力進行個性化教育成為可能;二是帶來教學內容、教學方式方法上的改變,立體化教學、案例教學、互動教學等方式的運用使得教學更加生動,MOOCs(慕課)就是大數據時代教學變革的一個例子。大數據可以促進全世界優質教育資源共享,發揮每個教師的優勢特長。大數據將對教育產生一系列的深遠影響,不可低估。
記者:但是,大數據的廣泛應用,可能會導致侵犯他人隱私的情況發生,對此您怎么看?
袁衛:在大數據時代,個人的相關數據信息輕易可得,個人隱私越來越不安全。其實不僅僅是個人隱私,包括國家安全和企業的商業機密,也受到很大的威脅。怎么辦?我認為對于國家而言,一方面要積極推進數據對外開放,凡是不涉及個人隱私、國家安全和商業機密的數據,都應該公開,這樣才能避免形成數據孤島,充分發掘和利用數據資源;另一方面,在開放數據的同時要加強相關立法,這兩個方面是互相補充的,只有這樣,才能趕上時代發展的步伐,充分發揮我們這個人口大國、經濟大國的數據資源優勢。
從個人的角度講,要加強個人信息防護意識,在上網發布相關信息時,要了解哪些是可以發的,哪些是不能發的,以免給自己帶來困擾。
兩個“交叉”探索人才培養之道
記者:據了解,中國人民大學、北京大學、中國科學院大學、中央財經大學和首都經貿大學5所高校組建了一個協同創新平臺,以“應用統計專業碩士”為載體培養大數據分析方面的人才。為何要采取這種多校合作的培養模式?
袁衛:之所以采用這種協同創新、5校合作的培養模式,完全是由大數據人才的特點決定的。第一個特點,大數據人才是多學科交叉型人才,不是某一個學科可以單獨培養的。大家知道,現在進行數據分析,要有數據庫和軟件等計算機方面的知識,還要有數學和統計方面的知識和能力。這就涉及到中國學科體系中“統計學”和“計算機科學與技術”兩個一級學科。培養出的畢業生到了單位,可能還需要財經、新聞、生物醫學和管理等方面的知識。所以,大數據人才的培養,也需要計算機、統計學、數學等多學科共同參與。
第二個特點,這是一類應用型人才,必須重視實踐環節。他們畢業后不是去做研究,而是投身業界,要能很快上手。這樣的人才培養,不是僅在學校、在實驗室、研究室里就能夠培養出來的,而是要到實踐中去,解決實際問題。因此,這個協同創新平臺,不僅有5所高校參與,還有人民日報、新華社、中央電視臺等十余家媒體,中國移動、中國電信、中國聯通、百度、阿里巴巴、騰訊等大數據公司和用人單位,包括云計算的一些基地共同參與,是一個“政、企、產、學、研”一體的人才培養平臺,也就是說,人才培養環節是交叉的。
還有一點需要指出,為什么把人才培養的層次定位于碩士?目前全國有200多所本科院校開設統計學專業,75所高校設有統計學博士點,78所高校開辦“應用統計碩士”專業學位。在大數據時代,我們改革最急需的人才是碩士層次的,正好我們有“應用統計專業碩士”這樣一個新的專業學位,利用這樣一個協同創新平臺來培養大數據人才,也與專業學位的改革精神相一致。
記者:這個大數據人才的培養方案,如何體現出“兩個交叉”?
袁衛:5所學校參與培養,就是出于學科交叉的考慮。中國人民大學統計學院的學科、專業設置是綜合的、應用的,理論和應用兼而有之,應用領域涉及衛生、健康、經濟、社會、管理等,總體實力較強。而北京大學和中國科學院大學,大家都知道,他們在計算機、數學和統計理論研究方面相當強,掌握大數據分析技術的前沿。中央財經大學和首都經貿大學是財經類為主的院校,這兩所學校側重于應用人才的培養,特別是面向經濟、管理、社會這樣的領域。他們和很多行業企業、金融機構有著密切聯系。這5所高校分別屬于教育部直屬高校、中國科學院的高校和地方高校3種類型,各有特色,優勢互補,能夠建成一個很好的、學科交叉的人才培養協同體。
培養環節的交叉,主要體現在企業、用人單位的參與上。上面提到,有這么多的大數據企業、媒體單位參與合作。他們把實際工作中遇到的問題帶來,大家一起研究解決;他們把企業運作過程中產生的大數據拿過來,學生直接用這些真實的數據進行訓練和研究。
記者:據了解,對這批大數據人才的培養,將采取團隊教學的方式?
袁衛:我們經過多次研討,并參考了美國頂尖的20所大學大數據人才培養的方案和課程,確定了“大數據分析計算機基礎”、“大數據分析統計基礎”、“大數據分布式計算”、“大數據挖掘與機器學習”、“非結構化大數據分析”和“大數據建模案例研究”6門必修核心課程。每門課程不是由一位老師來上,而是一個教學團隊,5所學校各選一名最優秀的教師,然后5位老師一起研究一門課程、同上一門課程,而且還有大數據企業的專家參與。初步估計,每門課程的教學團隊會在10個人左右。教學方式也有別于傳統的課堂講授,會采取案例教學和討論班的方式,也可能是一個團隊共同完成一個項目。我們還采取雙導師制,兩位導師一位來自大學,一位來自企業界,50名學生,就有100名導師。在這個協同創新機制里,還有一個特點,就是采取個性化的教學方式,從生源來看,首批學生主要來源于計算機和統計兩個學科,計算機專業背景的本科生進來以后,將重點加強統計分析能力的培養,而統計、數學、物理等專業背景的本科生進來后,將重點加強計算機、大數據軟件等方面的學習。
“黃埔一期”的歷史使命是探路
記者:目前國內大數據方面的人才供求情況如何?
袁衛:2012年美國麥肯錫咨詢公司提供了一份報告,對美國大數據人才需求進行了分析。他們把大數據人才分為兩類,一類叫做“數據經理或數據工程師、數據分析師”;另一類叫做“數據科學家”。數據科學家熟練掌握計算機、統計、經濟管理等技能,能夠領導團隊從海量數據中找出規律,發現知識,做出決策,創造價值。根據麥肯錫的報告,到2018年,美國數據分析師的人才需求將達150萬人左右,高層次的數據科學家的需求缺口在14-18萬人。中國的情況,目前在百度、阿里巴巴、京東等電子商務企業和騰訊等網絡媒體大數據公司中有一些大數據方面的人才,但是能稱得上大數據科學家的人才,非常非常少。我國相關部門預計3到5年內,來自政府、媒體、企業等方面的數據工程師和數據分析師的需求將達100萬人左右,而目前的人才培養,無論是規模還是質量水平,都遠遠達不到要求。
記者:首批50人的培養計劃,只是一個試點探索。對于大規模培養大數據人才,您有什么建議?
袁衛:在大數據時代,數據分析,越來越成為我們工作生活中一個最基本的技能。大數據人才的培養,正是基于這樣一個時代的發展背景。大數據人才的適用領域非常廣泛,有著巨大的社會需求。他們的就業,遍及生物、醫學、經濟、社會、媒體、金融、教育、政府各個方面,只要有數據的地方,他們都可以施展才華。這個實驗班,其意義在于探索一種新的人才培養模式。如果實踐證明比較成功的話,我們“應用統計碩士專業學位教育指導委員會”會推動在全國推廣,比如上海的一些學校今年就希望送學生來學習。將來大城市的一些高校,完全可以參考我們這個實驗班的模式。現在全國有78所高校開辦應用統計專業碩士,他們絕大多數都有條件開展類似的人才培養,都可以進行積極探索,相關企業參加的積極性也非常高。
記者:對于“黃埔一期”的這50名幸運兒,您有什么期待?
袁衛:我希望他們畢業后,到用人單位經過幾年的鍛煉,能夠主管大數據研究項目或大數據分析部門,成為數據科學家這個層面的高級人才。這類高層次的大數據人才是國家最緊缺的。探索培養高層次大數據人才的路徑、滿足國家日益增長的需要,這是中國人民大學等五校組建大數據人才培養協同創新平臺的目標和使命。(記者 汪瑞林)
【大數據應用案例】
PRADA的試衣間
PRADA(普拉達,一個意大利的奢侈品牌)在紐約的旗艦店中每件衣服上都有RFID(射頻識別)碼。每當一個顧客拿起一件PRADA衣服進試衣間,RFID會被自動識別。同時,數據會傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進試衣間,停留多長時間,數據都被存儲起來加以分析。如果有一件衣服銷量很低,以往的做法是直接干掉。但如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多,也許這件衣服的下場就會截然不同,也許對某個細節作微小改變就會重新創造出一件非常流行的產品。
中國的糧食統計
中國的糧食統計是一個老大難的問題。傳統的統計辦法,依靠統計人員層層上報,水分很大,數據的真實性令人懷疑。在前兩年北京的一次會議上,原國家統計局總經濟師姚景源講述了他們是如何進行糧食統計的。他們采用遙感衛星,通過圖像識別,把中國所有的耕地標示、計算出來,然后把中國的耕地網格化,對每個網格的耕地抽樣進行跟蹤、調查和統計,然后按照統計學的原理,計算(或者說估算)出中國整體的糧食數據。這種做法是典型采用大數據建模的方法,打破傳統流程和組織,直接獲得最終的結果。
公安部門的“犯罪地圖”
作為2014年亞太經合組織(APEC)領導人非正式會議的舉辦地,北京市懷柔區警方通過運用大數據、云計算和科學分析模型,整合歷年案件信息,建立了犯罪數據分析和趨勢預測系統,能夠預測犯罪趨勢,指導警力投入。這套系統共收錄了懷柔區近9年來1.6萬余件犯罪案件數據,通過標準化分類后導入系統數據庫,同時采用地圖標注,將懷柔分成16個警務轄區,抓取4700余個犯罪空間坐標,實施空間網格編號。
通過對越來越多數據的挖掘分析,某一區域的犯罪率以及犯罪模式都將清晰可見。大數據可以幫助警方定位最易受到不法分子侵擾的區域,創建一張犯罪高發地區熱點圖和時間表。
更多精彩資訊請關注查字典資訊網,我們將持續為您更新最新資訊!