内容简介
《大数据时代的科研活动》由国际科技数据委员会(CODATA)中国全国委员会编著,旨在揭示科研活动在大数据时代所表现出的新特点、在研究方法和模式上的变化,以及这些变化对数据技术、基础设施、政策、人才等各方面提出的挑战和需求。全书主要介绍所需要的关键数据技术以及数据科学、数据政策的发展现状和态势,为我国有关政府部门在制定相关科技发展战略和行动计划时提供参考性建议。
内页插图
目录
序
前言
概述
引言
第一部分 以数据为核心的科研活动
导言
一、高能物理中的数据和挑战
二、数据密集型时代的天文学
三、大数据时代的空间科学数据应用环境
四、大数据时代的对地观测科学研究
五、大数据时代的生物多样性研究和应用
六、大数据时代微生物学研究新趋势——数据的整合和应用
七、大数据时代的生物医学及其面临的隐私保护问题
八、大数据与社会计算
九、大数据背景下的经济管理与金融研究
第二部分 大数据时代支撑科研的共性技术
导言
一、科学数据获取的新方式
二、发展科研网络,提升科研大数据传输能力
三、大数据存储与处理技术
四、科学数据管理技术的新进展
五、科学数据与文献的互操作
六、大数据挖掘
七、大数据时代面向科学研究的可视化
第三部分 大数据时代的数据科学
导言
一、数据科学发展与展望
二、数据政策的发展
展望和建议
附录1 编写人员
附录2 编写历程
精彩书摘
(三)挑战
已有大量关于大数据和数据密集型科学研究变革潜力的论文发表,但机遇并不容易成为现实,还有众多的挑战和难题需要解决。这些挑战和难题是多方面的,既有技术、基础设施、政策和法律方面的,也有机构、人才和文化等方面的。
1.技术挑战
大数据的3V特征使得从数据中创造价值存在阻碍,关键的技术挑战包括更好、更高效地传输、存储、管理、分析和可视化这些数据。
1)数据传榆
随着数据集变大,用传统的数据传输协议很难低成本、高效地传输数据。当要传输的数据达到上百TB时,目前最快速且便宜的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。此外,联网观测、大科学装置实时控制、协同分析等大量的科研应用在传输速度、可靠性和服务质量保证方面也都有高于一般商业应用的特别需求。数据的指数级增长和科研应用的特殊需求已经很大程度地改变了现有网络体系结构和应用方式,但如何保证海量数据以较低的成本、高速(有的应用要求是实时或准实吋)、高可靠地传输仍然是棘手的问题,需要从物理层到应用层、从网络控制管理到专用传输协议进行技术创新和研发。
2)数据存储
数据的爆炸式增长和越来越多的数据密集型计算使得存储系统在容量、扩展能力、传输瓶颈等方面都面临着挑战。此外,数据库存储结构、数据长期保存’等方面也需要进行技术攻关。
存储能力增长的速度赶不上数据的增长,设计合理的、具有较好扩展能力的存储系统架构是海量数据存储系统的关键问题之一.低成本、分布式、可橫向扩展的存储架构成为研究的热点,出现了集群存储、云存储等技术和相关解决方案。不过它们也都面临着一些挑战,比如如何降低存储开销并保证数据的可靠性‘”‘5T。
计算机系统的计算能力与其存储子系统访问性能之间的差距长期存在,随着多核处理器、多线程技术的广泛使用,这一差距进一步加大,计算速度和存储速度不匹配所形成的“存储墙”成为计算机系统近些年面临的一个严重问题‘“’。在产生大量数据的仿真和模拟中,大多数的计算结果从未保存,只有周期性存储的快照可用于分杆”数据密集型计算同样也提出了挑战,目前海量数据的分析严重受限于存储系统相对较低的。性能,一旦数据集超出计算平台随机存取存储器(RAM)的能力,多层高速缓存的本地化也难再发挥作用”。
……
前言/序言
经过两年多的调研和研讨,编写委员会举办了4次大型专题研讨会议,针对本研究报告中的每一篇文章进行了多次推敲和修改后,《大数据时代的科研活动》终于完成。可以说,研究报告只是我们编写成员当前的认识水平。我们相信,随着大数据应用服务的深入以及数据密集型科研活动实践的不断开展,人们对这一现象和问题会有新的思考和看法。
本报告作为中国科学院国际组织人才团队及中国委员会支持计划资助的项目一一“CODASTA中国全国委员会国际合作与可持续发展”的成果之一,在编写的过程中得到了中国科学院国际合作局国际组织处和中国科学院信息化工作领导小组办公室信息化工作处等单位的全力支持,并得到了国际科技数据委员会Data for Scienceand.Technology,CODAA)中国全国委员会各位委员的指导。参与本报告编写的成员来自中国科学院各研究所以及国内著名高校,他们在繁忙的工作之余参与报告的研究和编写工作,付出了辛勤的劳动。在此,我们一并表示感谢.
CODAZA是国际科学联合会(International C0mcil for Science,ICSU)于1966年成立的一个跨学科的科学委员会,是科技数据领域的国际权威学术机构。在其近50年的历史中,CODATA一直致力于推动科技数据在全球范围的广泛共享与应用,并不遗余力地在全球范围内倡导数据科学,以促进科技发展和造福人类。我国于20世纪80年代加入CODArrA,并以中国科学院牵头,成立了CODAIA中国全国委员会,委员来自于国内各研究院所、高校和相关政府部门。近年来,得益于我国科技数据共享和科研信息化等工作的深入推进,我国科学家在ArA中的影响和作用曰益加大。我们相信,未来无论对CODAZA的发展还是对数据科学的发展,中国科学家都将能起到更大的作用。
期望本研究报告对科研人员认识大数据以及即将或已经到来的新型科研模式有所帮助,对科研工作的管理者和政府相关部门进行决策具有一定的参考价值。
CODATA中国全国委员会副主席
黄向阳
2013年7月
大数据时代的科研活动 电子书 下载 mobi epub pdf txt