第4期 鲍静:基于云存储的数字资源长期保存策略 及云存储研究[3]。与传统的本地存储方式相比,Fedo. razon只需要在EC2上同时启动多个实例,就可以解决 大规模数据访问的问题,不会像使用本地的Web Server 那样,随着访问量的增加速度越来越慢。使用s3比使 用本地磁盘阵列更易扩展,用户不需要操心购买和部 署硬件设施。不需要担心未来磁盘空间不足的问题, 移时不需要任何停机操作,就可以把数字资源从一个 存储节点移到另一个存储节点,大大简化了存储管理 过程。 2.3数据可靠性问题上看 图书馆的数字资源多面向读者,访问量大,要求 存储稳定可靠和容错能力强,当存储设备出现故障或 服务器系统崩溃时候,就会中断读者数字资源访问服 不需要配备专门的硬件管理人员。除此之外,任何其 它HE/FE的机构都可以从任一地点登录其Amazon Web Services.选择Fedorazon提供的公共AMI,在几 务。而云存储当某个存储节点出现故障,就可以自动 切换到另一个存储节点上,完全不影响读者服务,让 分钟内迅速启动自己的仓储服务。大大降低了机构开 展数字资源长期保存的难度。但是,Fedorazon项目并 没有考虑大规模的数据迁移、数据安全与数据隐私等 问题。 美国国会图书馆发起的DuraCloud。扩展了多个云 存储平台,并在不同的云存储架构之间进行迁移。它 的主要功能是将基本的存储需求交由最好的云存储服 务提供者负责,从而保证了数据的长期可靠性和易用 性。DuraCloud将存储建立在多个商业化云平台之上, 各个机构不仅可以根据自身情况选用不同的云平台。 还可以实现跨平台的多重备份。避免因一个云提供商 发生断电故障、倒闭而导致数据丢失,提高了数据的 可靠性;同时,通过云提供商的访问控制、Web应用 安全、通道安全、实例防火墙,对数据的安全性实施 提供尽可能的保障:除此之外,DuraCloud还可以利用 云平台对海量数据的处理能力进行大规模计算。国内 云存储技术发展比较迟缓,目前仅限于理论研究层面。 2基于云存储的数字资源保存方案特点 2.1从数字资源类型来看 目前图书馆的数字资源主要分为馆藏书目数据库、 自建数据库、外购数据库3种:其中外购数据库是占 用存储最大的,而且每年的数据资源总量呈指数级增 长,这些对数字资源的I/0访问和容量的瓶颈问题在云 存储中都得到了解决。由于云存储是存储和服务器的 集合体,采用的是架构是并行扩充,在理论上可以动 态化容量随意扩充,满足数据 访问,也没有带宽的 。 2.2备份和迁移问题上看 为了保障数字资源的长期保存。数字资源还需进 行合理的备份和迁移。传统的备份和迁移数字资源时. 采用的多为磁带备份,这种备份的效率低,并且当介 质发生故障或者硬件迁移时,常常需要中断服务进行 硬件部署。而云存储可以在不影响服务的前提下.根 据要求制定备份策略,实现异地备份。在实施数据迁 用户毫无察觉。 2.4从管理问题上看 图书馆因为设备资金的问题,对存储设备和服务 器设备的购置都在不断扩充,而不同的存储设备之间 各存储管理界面也是不相同的。一台服务器访问不同 的存储设备不兼容问题也是需要不同的光纤通道卡, 这无形中增加了图书馆的存储成本。而云存储是将分 布在各地的大规模硬件设施进行抽象,通过虚拟化技 术强化数据保护机制和管理功能,在节点之间提供分 布式锁管理和缓存一致性功能,然后通过集中元数据 控制存储节点,形成一个多存储设备、多应用、多服 务协同工作的共享存储虚拟架构。云存储实现了数字 资源的集中监控和动态管理.每个应用使用的存储空 间可以随意伸缩、实时调整.大大降低了专业技术人 员管理难度。 3基于云存储的数字资源保存运行模式与机制 随着数字化进程的加快和数字资源的爆炸式增长, 存储系统必须具备足够的存储空间以及灵活的可扩展 性,才能长期应对海量数据的保存需求。数字资源长 期保存工作的关键在于维护数字信息的永久性和真实 性,但其面临数据丢失、介质故障、软硬件过时、结 构错误等问题,因此从可扩展性、支持协同共享、支 持备份和迁移、降低成本代价等几个方面出发,探索合 理的存储解决方案,是数字资源长期保存的关键问题。 由于云存储的优势,可以充分解决图书馆数字资 源保存存在的问题,图书馆应该充分利用云存储。 3.1建立图书馆数字资源云联盟运行模式和联盟云 存储模型 各地区都有很多公共图书馆和高校图书馆.而每 个图书馆都有自己的存储系统,我们可以把每个图书 馆的存储系统看成“图书馆存储联盟云”的一个存储 节点,通过虚拟化技术,将不同的物理存储节点连接 起来,形成逻辑上的一个整体.这样就形成了图书馆 存储联盟云。每个图书馆联盟云又可以由云存储服务