內容簡介
《大數據時代的科研活動》由國際科技數據委員會(CODATA)中國全國委員會編著,旨在揭示科研活動在大數據時代所錶現齣的新特點、在研究方法和模式上的變化,以及這些變化對數據技術、基礎設施、政策、人纔等各方麵提齣的挑戰和需求。全書主要介紹所需要的關鍵數據技術以及數據科學、數據政策的發展現狀和態勢,為我國有關政府部門在製定相關科技發展戰略和行動計劃時提供參考性建議。
內頁插圖
目錄
序
前言
概述
引言
第一部分 以數據為核心的科研活動
導言
一、高能物理中的數據和挑戰
二、數據密集型時代的天文學
三、大數據時代的空間科學數據應用環境
四、大數據時代的對地觀測科學研究
五、大數據時代的生物多樣性研究和應用
六、大數據時代微生物學研究新趨勢——數據的整閤和應用
七、大數據時代的生物醫學及其麵臨的隱私保護問題
八、大數據與社會計算
九、大數據背景下的經濟管理與金融研究
第二部分 大數據時代支撐科研的共性技術
導言
一、科學數據獲取的新方式
二、發展科研網絡,提升科研大數據傳輸能力
三、大數據存儲與處理技術
四、科學數據管理技術的新進展
五、科學數據與文獻的互操作
六、大數據挖掘
七、大數據時代麵嚮科學研究的可視化
第三部分 大數據時代的數據科學
導言
一、數據科學發展與展望
二、數據政策的發展
展望和建議
附錄1 編寫人員
附錄2 編寫曆程
精彩書摘
(三)挑戰
已有大量關於大數據和數據密集型科學研究變革潛力的論文發錶,但機遇並不容易成為現實,還有眾多的挑戰和難題需要解決。這些挑戰和難題是多方麵的,既有技術、基礎設施、政策和法律方麵的,也有機構、人纔和文化等方麵的。
1.技術挑戰
大數據的3V特徵使得從數據中創造價值存在阻礙,關鍵的技術挑戰包括更好、更高效地傳輸、存儲、管理、分析和可視化這些數據。
1)數據傳榆
隨著數據集變大,用傳統的數據傳輸協議很難低成本、高效地傳輸數據。當要傳輸的數據達到上百TB時,目前最快速且便宜的方式是通過飛機或地麵交通工具運送磁盤而不是網絡通信。此外,聯網觀測、大科學裝置實時控製、協同分析等大量的科研應用在傳輸速度、可靠性和服務質量保證方麵也都有高於一般商業應用的特彆需求。數據的指數級增長和科研應用的特殊需求已經很大程度地改變瞭現有網絡體係結構和應用方式,但如何保證海量數據以較低的成本、高速(有的應用要求是實時或準實吋)、高可靠地傳輸仍然是棘手的問題,需要從物理層到應用層、從網絡控製管理到專用傳輸協議進行技術創新和研發。
2)數據存儲
數據的爆炸式增長和越來越多的數據密集型計算使得存儲係統在容量、擴展能力、傳輸瓶頸等方麵都麵臨著挑戰。此外,數據庫存儲結構、數據長期保存’等方麵也需要進行技術攻關。
存儲能力增長的速度趕不上數據的增長,設計閤理的、具有較好擴展能力的存儲係統架構是海量數據存儲係統的關鍵問題之一.低成本、分布式、可橫嚮擴展的存儲架構成為研究的熱點,齣現瞭集群存儲、雲存儲等技術和相關解決方案。不過它們也都麵臨著一些挑戰,比如如何降低存儲開銷並保證數據的可靠性‘”‘5T。
計算機係統的計算能力與其存儲子係統訪問性能之間的差距長期存在,隨著多核處理器、多綫程技術的廣泛使用,這一差距進一步加大,計算速度和存儲速度不匹配所形成的“存儲牆”成為計算機係統近些年麵臨的一個嚴重問題‘“’。在産生大量數據的仿真和模擬中,大多數的計算結果從未保存,隻有周期性存儲的快照可用於分杆”數據密集型計算同樣也提齣瞭挑戰,目前海量數據的分析嚴重受限於存儲係統相對較低的。性能,一旦數據集超齣計算平颱隨機存取存儲器(RAM)的能力,多層高速緩存的本地化也難再發揮作用”。
……
前言/序言
經過兩年多的調研和研討,編寫委員會舉辦瞭4次大型專題研討會議,針對本研究報告中的每一篇文章進行瞭多次推敲和修改後,《大數據時代的科研活動》終於完成。可以說,研究報告隻是我們編寫成員當前的認識水平。我們相信,隨著大數據應用服務的深入以及數據密集型科研活動實踐的不斷開展,人們對這一現象和問題會有新的思考和看法。
本報告作為中國科學院國際組織人纔團隊及中國委員會支持計劃資助的項目一一“CODASTA中國全國委員會國際閤作與可持續發展”的成果之一,在編寫的過程中得到瞭中國科學院國際閤作局國際組織處和中國科學院信息化工作領導小組辦公室信息化工作處等單位的全力支持,並得到瞭國際科技數據委員會Data for Scienceand.Technology,CODAA)中國全國委員會各位委員的指導。參與本報告編寫的成員來自中國科學院各研究所以及國內著名高校,他們在繁忙的工作之餘參與報告的研究和編寫工作,付齣瞭辛勤的勞動。在此,我們一並錶示感謝.
CODAZA是國際科學聯閤會(International C0mcil for Science,ICSU)於1966年成立的一個跨學科的科學委員會,是科技數據領域的國際權威學術機構。在其近50年的曆史中,CODATA一直緻力於推動科技數據在全球範圍的廣泛共享與應用,並不遺餘力地在全球範圍內倡導數據科學,以促進科技發展和造福人類。我國於20世紀80年代加入CODArrA,並以中國科學院牽頭,成立瞭CODAIA中國全國委員會,委員來自於國內各研究院所、高校和相關政府部門。近年來,得益於我國科技數據共享和科研信息化等工作的深入推進,我國科學傢在ArA中的影響和作用曰益加大。我們相信,未來無論對CODAZA的發展還是對數據科學的發展,中國科學傢都將能起到更大的作用。
期望本研究報告對科研人員認識大數據以及即將或已經到來的新型科研模式有所幫助,對科研工作的管理者和政府相關部門進行決策具有一定的參考價值。
CODATA中國全國委員會副主席
黃嚮陽
2013年7月
大數據時代的科研活動 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
導言
評分
☆☆☆☆☆
隨著數據集變大,用傳統的數據傳輸協議很難低成本、高效地傳輸數據。當要傳輸的數據達到上百TB時,目前最快速且便宜的方式是通過飛機或地麵交通工具運送磁盤而不是網絡通信。此外,聯網觀測、大科學裝置實時控製、協同分析等大量的科研應用在傳輸速度、可靠性和服務質量保證方麵也都有高於一般商業應用的特彆需求。數據的指數級增長和科研應用的特殊需求已經很大程度地改變瞭現有網絡體係結構和應用方式,但如何保證海量數據以較低的成本、高速(有的應用要求是實時或準實吋)、高可靠地傳輸仍然是棘手的問題,需要從物理層到應用層、從網絡控製管理到專用傳輸協議進行技術創新和研發。
評分
☆☆☆☆☆
七、大數據時代的生物醫學及其麵臨的隱私保護問題
評分
☆☆☆☆☆
五、科學數據與文獻的互操作
評分
☆☆☆☆☆
六、大數據挖掘
評分
☆☆☆☆☆
評分
☆☆☆☆☆
隨著數據集變大,用傳統的數據傳輸協議很難低成本、高效地傳輸數據。當要傳輸的數據達到上百TB時,目前最快速且便宜的方式是通過飛機或地麵交通工具運送磁盤而不是網絡通信。此外,聯網觀測、大科學裝置實時控製、協同分析等大量的科研應用在傳輸速度、可靠性和服務質量保證方麵也都有高於一般商業應用的特彆需求。數據的指數級增長和科研應用的特殊需求已經很大程度地改變瞭現有網絡體係結構和應用方式,但如何保證海量數據以較低的成本、高速(有的應用要求是實時或準實吋)、高可靠地傳輸仍然是棘手的問題,需要從物理層到應用層、從網絡控製管理到專用傳輸協議進行技術創新和研發。
評分
☆☆☆☆☆
二、數據政策的發展
評分
☆☆☆☆☆
第三部分 大數據時代的數據科學