三问题确定存储软件需求
存储什么样的数据
数据在磁盘中的物理存储位置是没有层次的,是“平”的。但从业务应用角度看,这些数据却不是“平”的,而是有层次和生命周期的。比如水文观测,显然本世纪的水文观测数据对我们今天的防洪设施建设更有指导意义,而500年前明代的水文数据则要差得多。也就是说,本世纪的水文观测数据还处在生命周期中的活动期,而明代以前的水文观测数据则已经处在生命周期中的末期了。
由于数据的生命周期决定其价值,那我们要存储什么样的数据呢?由于投资的原因,首先应该存储那些对我们最有价值的数据,对于那些我们经常查阅的数据应该优先使用高性能的存储介质,而对于那些处于生命周期末期的数据可以使用一些廉价而海量的普通介质,正所谓:“好钢用在刀刃上!”
对于“存储什么样的数据?”,这个问题的答案是——信息生命周期管理(ILM)。
如何在异构环境下统一管理存储介质
数据不仅是有层次和结构的,而且更是有大小的,所以存储介质必然是多元的,可能有磁盘、阵列、磁带机/库等。那这些设备是否要购买同一厂家的产品呢?用户的选择通常是:买A公司的磁盘(包括A公司的磁盘管理软件),B公司的阵列(包括B公司的阵列管理软件),C公司的带库(包括C公司的带库管理软件),于是一个异构的存储环境出现了。
如何在这个异构环境下统一管理所有存储介质呢?从用户的使用看,他们并不介意数据存在哪个物理位置,他们只要求一个“统一的存储”,或者说只运行一个拷贝或备份命令而已。那就需要把A/B/C三种存储介质“集中”起来,统一管理,并随时提供存储补给。
对于“如何在异构环境下统一管理存储介质?”,这个问题的答案是——虚拟化(Virtualization)。
如何保护数据
数据不仅是有层次结构和大小的,更是有价值的,而数据保护方法也和应用有直接关系,换言之你要把数据“保”到什么“份”儿上?是灾难发生前1周的数据,还是灾难发生前1秒的数据?
另外,数据是不能单独存在的,甚至存有数据的介质也不能单独存在,数据和介质必须以服务器(也就是其所运行的平台或系统)为载体才能“活动”,那么数据保护的另一个隐含问题就是:在保护数据的同时必须保护系统,对于某些行业来说,保护系统的意义比保护数据的还大。
对于“如何保护数据?”,这个问题的答案是——备份和容灾(Backup & Disaster Recover)。
上述三个问题,不仅是企业部署存储应用的核心问题和基础问题,也是存储技术,特别是存储软件发展的最重要方向。
存储三要
对于部署存储软件的三个问题,随着IT技术的发展,目前人们的解决方法日益趋向一致,基本上达成了共识,它们是:用信息生命周期管理(ILM)解决“存储什么样的数据”;用虚拟化(Virtualization)解决“异构环境下存储介质的统一管理”;用备份和容灾(Backup & Disaster Recover)解决“数据保护”,本文将向大家具体介绍这三种技术的应用原理和部署原则。
信息存储要分层
ILM最早是由EMC等公司积极倡导的,简单地说,ILM就是把数据看成是有生命周期的,数据的“活动期”长短不一,对于不同生命周期的数据给予不同的管理和存储方式。其核心目的是:降低、管理、预测与存储相关的IT成本,改进存储服务级别的性能,提高信息可用性。显然ILM把数据的价值和存储方案联系起来了,从技术上看如果要实现这个目的,必须为ILM建立分层的体系结构。
具体来说ILM可以分为三个阶段:
分层服务模型根据信息对业务部门的价值以适当的成本为适当信息和应用程序确定适当的服务级别,从而改善总拥有成本。分层服务模型及其所带来的成本节约(参见图1/图2)。


介质管理要虚拟化
在异构存储环境中,用户面临的挑战有三个:成本压力;扩容压力;异构环境的压力。存储虚拟化可以把用户不同的存储系统融合成统一的平台,这样不但易于管理,而且还可以通过分级存储实现信息生命周期管理,从而进一步优化应用环境。实际上虚拟化有三种方式,基于服务器、基于存储以及基于网络,这三种虚拟化各有千秋,详见下表。
| 虚拟化方式 | 优点 | 不足 |
| 基于服务器的虚拟化 | 可以管理多个厂家的不同设备 | 通常要安装VMware ESX/VMware VirtualCenter这样的软件,对系统性能有一定影响 |
| 基于存储的虚拟化 | 不用改变前端的服务器、应用、操作系统 | 存储设备间的管理和互操作性差 |
| 基于网络的虚拟化 | 不用改变网络架构,只要在交换机中内嵌软件即可 | 需要把存储设备传送的I/O进行重新组合,不支持端到端的应用 |
对于用户来说,选择哪种方案要视系统的现有情况决定。如果已经拥有了较完善的存储系统,就可以选用基于服务器的虚拟化方案;如果是刚刚采用SAN,那么可以选择基于存储设备的虚拟化方式。而最简单的虚拟化方式是基于存储控制器的方式,这种方式既不会增加管理成本,也不会影响应用性能,它将存储控制器与磁盘阵列分离,通过控制器提供基于存储的虚拟化,这种虚拟化方式很有望成为未来存储发展的方向,具体原理见图3。

数据保护要看需求
灾备有两种不同的需求,其具体的实施技术要求、设备投入均有一定差异,而核心问题就是:你要把数据“保”到什么“份”儿上?
对于一些“静态”应用,虽然这些应用可能很机密,但普通的灾备可能就足以了。对于一个银行帐号数据库来说,也许保住灾难发生前1天的数据就够了,因为银行如果遭受某种不可抗力的破坏,在一切恢复正常后,银行可以刊登出一则通告:请灾难发生当天在银行开户的用户在银行正常工作后重新开一次户。显然用户对此不会有什么异常反应,银行的运行也将继续。而保住灾难发生前1天的数据就是这个银行对其灾备方案的要求,在这个要求之下设备的部署、资金的投入就已经基本确定了。
但对于一些特殊行业,或者其应用具有很强的实时性时,一般的灾备就不行了。电信运营商的计费数据库的灾备要求要比银行的帐号数据库高得多,其灾备方案很可能是:保住灾难发生前10分钟的数据,即便是这样还不够,如果不能在灾难发生后迅速恢复计费系统,保住的那些数据甚至是没有意义的,所以电信运营商计费数据库的灾备系统要求在灾难后的最短时间里恢复计费系统。显然,这种需求下的投资和设备部署与上面一种情况完全不同了,甚至是完全的“质变”。而这种“质变”的根本原因是:在有的行业和应用中,数据必须以某个系统为载体才能“活动”,那么此时的灾备就包含了:数据保护和系统保护两个方面。
那么你的企业要把数据“保”到什么“份”儿上呢?
ILM把价值与存储联起来
今天的数据量和数据增长率意味着公司必须经常关注信息的生命周期了,企业不能再象过去那样每隔几年将存储容量加倍就可以了。如今,如何存储不断增长的信息已成为整个公司共同承担的责任和面临的挑战。存储提供商GlassHouse公司的首席顾问Stewart Buchanan称:“过去,我们把数据存储看作是IT部门进行的‘妖术’,目的要使存储部门成为公司的一个组成部分,现在看来这个错误观点需要转变了。”
根据信息的价值确定访问策略
信息生命周期管理(ILM)是一个将数据(包括人员、进程、技术)整合到公司的策略中,并在公司的整个生命周期内存储、访问的重要概念。ILM面临的最大挑战在于了解如何应用信息,然后量化其价值。ILM要取得成功,必须制订在整个过程中如何监控信息的价值,保证信息在需要时能够进行访问,在没有需求时得到适当处理。
Buchanan称:“虽然软硬件厂商倾向于根据其产品对ILM进行重新定义,但实际上ILM只是一种简单的哲学,其目的在于保证为数据存储而选定的基础构架能够定期与数据的实际商业价值保持一致。因此,从本质上说,ILM是一个以最低成本进行信息存储,并同时保证适当可用性的进程。ILM进程的第一阶段是决定存储哪些信息,以及如何对信息进行访问;第二阶段是将那些需求与有效的存储联系起来。”
Paul Dodgson是英国东部的Leicestershire郡管理委员会(Leicestershire County Council)合规经理兼社区记录管理(Records Management Society)主任,他认为,所有记录都拥有一个活跃的,半活跃的和存档式的生命,而在很大程度上它们的实际寿命并不重要。
对此,独立组织信息安全论坛(Information Security Forum)资深顾问Andy Jones则称,数据保存一段时间之后,不应只是将它托付给一个档案文件,而应该考虑它对公司的价值。
部署存储的硬件级别有三类,首先是存储系统,如SAN、NAS和DAS设备;其次是在线存储,如磁带与DVD库;第三是由磁学和光学存储构成,可进行离线的场外存储。存储系统(SAN/NAS)每兆字节都极为昂贵,但能够提供最优质最快捷的可用性。
“由于Sarbanes-Oxley法案的原因,公司保存的数据有了很大的增加,但存储预算却并没有增加多少,这就使得公司必须在成本与可用性间保持平衡,ILM也就产生了。”Migration Solutions管理主任Alex Rabbetts称。
信息到了生命周期末期怎么办
此外,ILM进程的一个重要部分是在其生命周期末期对数据进行管理。虽然一些文化或历史数据能够以低成本长期安全保存,但由于公司自己的需求或行业规定,大多数商业数据都有其特定寿命。在其使用期后还依然保留数据,不仅会带来额外的成本,还会增加公司面临的风险。
虽然许多组织意识到数据的归档可以降低成本、但最近的一项调查表明,28%的公司根本没有这样做。这也说明这些机构没有成功地执行任何ILM策略,而在72%的进行归档的公司中,不到20%的公司自动进行归档,其它公司对于以灾难恢复为目的的数据备份和作为终生管理过程一部分的数据归档之间的差别感到困惑。
“磁带具有容量大、可移动等优点,但磁带也是最脆弱的存储媒介,这种存储媒介易于受到破坏,并需要特殊的存储环境条件,所以要求对磁带进行不断监控,并每隔三到五年更新一次。”英特尔ILM经理Bob Alioto说:“所以在确定归档策略后,许多组织选择将数据管理与存储业务外包给专门的公司,这些公司将应付磁带的脆弱性和技术更新的复杂性。”
信息要存100年怎么办
存储工业协会(SNIA)欧洲部主席Paul Talbut称,如果你准备将某些数据存档100年,你就需要考虑技术问题,以及在将来的某个时候恢复信息的确定性。ILM是一个需要不断回顾使用模式与存储资源,以保证符合政策与程序的进化过程。而当数据不再以易于搜索的文本格式存在,新的挑战将不断出现。今天,基本商业数据包括语音和视频,如何设计出适合一切介质与存储设备的搜索,是我们所面临的考验。
案例分析——Mid Beds区委会(District Council)
采用ILM方法管理数据帮助Mid Beds区委会节省了一公里的货架空间,同时减少了两名员工,并改善了客户服务质量。对此,客户服务主任Clive Jones称:“我们采用的集中式信息管理方法允许两个新中心的客户服务员工以电子方式安全访问任何资料——包括规划记录与自治会的税收表格。”这样做的结果是:每月12000多次电话、150次个人请求和每天的40封电子邮件全都进行集中管理,用户还可通过公共网络访问自治会发布的信息,它改变了共享信息与提供客户服务的整个过程。
为完成这个信息生命周期管理项目,必须将为期七年的数据数字化,并存储在Hummingbird公司生产的新型电子文件管理系统中。该项目还允许Mid Beds员工检查它们保存的信息,并销毁已经无用的方案文件。Jones称:“对数据进行评定后,我们可以制定必要的规则,为当前及将来的数据在其自然生命周期内提供支持。如果我们没有保存这些数据的法令要求,或在一段时间内没有用户访问这些数据,那么用户需要这些数据的可能性就相当小,它也就没有任何历史价值,所以也就不必将它保存到我们的电子文件管理系统中。”
这次工作以后,Jones和他的团队成员已经能够制订出详尽的文件规划,提供保存他们记录的结构,包括定义保留期限。“我们有规则规定,如果一个文件六个月无人使用,就将它删除掉。”Jones说:“但只有在我们的系统正常运行至少一年,且文件计划的适用性得到各部门的审核后,我们才会执行保留规则。
虚拟化让服务器都忙起来
对于一支F1车队来说,每一条细小的信息都极为重要。从转弯时轮胎受到的压力、到引擎的转速,精确的测量可以帮助车队获得分站冠军,反之也会让赛车根本完成不了比赛。
“如果我们发现有测量赛车、跑道或车手状况的技术存在,我们就会利用传感器对其进行测量。”本田F1车队技术主管Matt Harris称:“在赛车比赛时收集到的信息也极为重要,以圣马力诺伊莫拉赛道来说,我们发现赛道拐角内的边石相当粗砺,那意味着我们必须配备合适的轮胎,使赛车在拐弯后保持稳定,而每条赛道都各有不同,了解它们对赛车的影响就显得十分重要。”
Matt Harris面临的挑战在于提供IT资源,分析并存储车队在某个赛季积累的所有数据资料。他说:“人们希望保存这些数据,在以后需要的时候访问并进行比较,所以数据的有效性及安全就特别重要。”
服务器负载严重失衡
本田F1车队以前主要依靠直连存储(DAS),8台服务器上分散着近8T的数据,一些服务器出现超载,而另一些则未充分利用。对此,Harris称:“我们的一台机器上可能有100GB的数据,而另一台机器上什么也没有。实际上并不是缺乏容量,问题是你拥有这种容量,但你不能只是把它们从一台机器转移到另一台机器上。”
IT员工需要手工将数据存储到便携磁盘上,进行备份通常要花几个小时甚至是一整天的时间。Harris表示:“我们花一个周末的时间也不能完成磁带对一台服务器的备份,一些服务器由于超载而变得不稳定,其中两台服务器的机器后面带有USB存储菊花链,我们没有丢失数据已属幸运。”
2005年夏天,由于几项自动监控技术取得进展,使得本田F1车队很快能够收集更多的数据,存储架构处于崩溃的临界点。车队急需增加存储容量,这留给IT团队两个选择:要么投资更多硬件,比如部署NAS或SAN;要么增加现有的存储容量。
随时提供存储补给
起初,IT团队考虑投资购买更多硬件,但投资更多硬件只能解决容量问题,但Harris还希望新系统绝对可靠,“如果赛车出现故障,我们绝不希望是我们造成的,所以技术必须100%可靠。”
于是本田F1车队与NCE接触,NCE建议本田车队结合利用Nexsan的存储硬件、DataCore的虚拟技术、使用惠普的服务器以及Special Logic的备份系统,并连接一个磁带库。Harris说:“这是能够满足我们所有需求的惟一解决方案,而且价格比我们预计的要更加低廉。”
系统的核心部分是DataCore的虚拟技术,该公司针对中端市场的SanMelody存储管理软件提供复杂的自动供应功能。“这一功能帮助我们建立并分配虚拟磁盘容量,它的外观和性能与普通的直连式存储相似。”Harris说。
虽然是刚刚部署虚拟技术,但IT团队已经看到应用系统带来的好处。新存储构架的最大好处在于:利用一个简单的管理控制台,任何时候都可为F1团队提供存储补给。磁盘容量在实际存在之前就可添加到存储池中,使得IT员工可更方便地增加或删除容量。另外就是备份时间大大缩短,现在即使最糟糕的情况也只需不到4个小时。此外,软件的易用性是促使我们做出决策的最大因素,我不是一个存储专家,但我不需要任何培训就能使用它。”
虚拟化的价值
通过建立各种计算设备的虚拟整体,从而节省成本是虚拟化技术的优势所在。Forrester调查公司称,75%的世界组织已意识到虚拟化的重要性,26%的机构已在服务器上配置这一技术。60%的机构计划在今后一年内增加虚拟化技术方面的支出。据此,Forrester预计今后五年内虚拟化将成为商业变革的核心。
四级备份让数据保险
保险公司可以为个人和企业在发生灾难时提供赔偿保障服务,从这个角度看,保险公司可以为个人和企业提供“容灾”,显然这就要求保险公司的业务平台足够强健,数据保护万无一失,即使是丝毫的疏漏都会给客户和公司带来巨大的损失。
中国平安保险公司(以下简称:中国平安)构建具有统一品牌管理系统和服务界面的平安3A服务体系,使客户无论何时(Anytime)、无论何地(Anywhere)、无论以何种方式(Anyway),都可以享受到平安保险公司的优质服务。对于保险公司,数据的重要性胜于一切,一旦数据丢失,公司的信誉、形象将遭受无法挽回的损失。
前端和后端
为了保证中国平安业务数据安全,公司从两个方面部署数据备份方案。一是总部信息系统(以下简称后端),一是客户端办公平台(以下简称前端)。后端的主要要求有:自动的数据备份和管理以及对备份介质的管理功能;联机热备份、逻辑备份,以及支持频繁的数据库日志文件备份;备份管理系统必须有灵活良好的扩展性,能够满足信息系统随着平安保险公司的飞速发展不断扩充和升级的需求。
前端办公平台主要指大量的PC机和笔记本电脑,需要备份的数据包括:文档、电子邮件、开发代码等。据此前端的主要要求有:用集中式管理和存储应对分散而庞大的数据量,能通过控制台对数百上千的用户进行相关的管理;要具备较高的安全性和保密性,使用户能自定义备份策略,随时恢复丢失文件,保障重要资料的安全;备份管理软件要支持当前使用的操作系统平台,同时占用较少的系统资源和网络资源。
经过系统的分析比较,平安保险公司最终选择了VERITAS NetBackup数据保护方案。
数据的四级保护
VERITAS NetBackup数据保护方案采用了四级层次结构满足上述备份需求。
高效 可靠 易管理
在使用本方案前,系统中的所有数据依靠人工方式进行备份。这种方式不仅占用大量的系统资源和工作时间,还会影响到系统在线工作的效率,对系统在极端条件下的数据故障恢复带来很多隐患。采用本方案后,通过数据的自动备份,减少了人工干预出错的几率,提高了备份的可靠性;由于将数据库热备份、数据库逻辑备份、数据库日志文件和普通文件的备份集中进行调度和管理,提高了备份的可管理性。此外,由于VERITAS备份软件支持广泛的操作系统平台和硬件平台,对于用户以后增加备份节点、增加备份设备、对备份设备进行扩容或增加新的应用等都有相应的平滑过渡方案。
在部署信息生命周期管理、存储虚拟化、备份和容灾方案时,企业应该选择什么样的产品呢?选择的原则会因本企业的应用环境和应用需求的不同而不同,这里我们选择三款比较典型的产品介绍给大家,供大家参考。
Veritas NetBackup 5.0及其选件
Veritas NetBackup 5.0提供了高性能数据保护,它可以保护UNIX、Windows、Linux和NetWare环境。同时借助从台式机到数据中心的完整保护,NetBackup为管理所有备份和恢复操作提供了单个控制台。NetBackup 5.0的主要功能包括以下三方面:可在UNIX、Windows、Linux和NetWare系统上执行备份和恢复操作的单个解决方案;为整个备份和恢复环境提供集中式管理,包括实时监控、历史报告、警报管理和故障排除;可伸缩性使NetBackup软件能够适应现代数据中心日益增长的需求。
NetBackup 5.0的主要优势包括:
允许管理员从单个控制台查看并启用所有备份和恢复操作,而不必考虑地理位置;为跨越多个平台、数据库、应用程序、设备和架构的环境提供数据保护;能够使用磁盘和磁带进行备份,并利用一个可伸缩的3层架构;提供用于高级灾难恢复、快照备份、加密和NAS保护的选件。
NetBackup 5.0的选件1——台式机和笔记本电脑选件
台式机和笔记本电脑选件是一种基于网络共享的、简便轻松的数据保护和同步解决方案。无论用户需要连续备份手工备份还是按计划备份,该选件都能实现。
该选件的优点是:能提供基于磁盘的持续数据保护,无论用户是在办公室还是在旅途中;拥有多台台式机和笔记本电脑的用户可以实现文件同步;与现有IT基础架构和策略相集成从而降低总拥有成本;一旦用户启动文件恢复功能就能快速恢复;简洁的设计使用户不再需要专用的应用服务器或基础设施。
NetBackup 5.0的选件2——高级客户端选件
高级客户端选件将多种基于快照的技术集成到一个简单实用的备份和恢复解决方案中。该软件主要功能和优势见下表
| 高级客户端功能 | 主要优势 |
| FlashBackup在使用裸分区(RawPartiton)备份可以实现对文件系统的快速保护 | 在恢复时,可以对单个文件或目录选择恢复 |
| 即时恢复(Instant Recovery) | 无需移动数据即可实现基于磁盘的数据备份和恢复 |
| 块级增量备份(Block Level Incremental Backup,BLIB) | 将备份开销从关键系统转移到特定的客户端 |
| 阵列和软件快照集成 | 支持各种阵列和软件快照,为所有高级客户端(Advanced Client)解决方案奠定基础 |
VMware ESX Server 3.0和VMware VirtualCenter 2.0
在基于Intel架构的服务器硬件平台上安装上VMware ESX Server软件,就将其变为虚拟机平台。VMware ESX Server采用了虚拟计算架构技术,将服务器上的物理系统转换为一个逻辑计算资源的公用池。操作系统和应用程序被分割到位于同一物理硬件上的多个虚拟机中,每一台虚拟机使用一个完整的、独立的环境运行它自己的BIOS、操作系统和应用程序。由于VMWare ESX Server直接在服务器硬件上运行,为部署、管理和远程控制多个虚拟机提供一个安全统一的计算平台。
VMware VirtualCenter用于对分散的计算机环境中的虚拟机的管理和控制,该ESXServer和VirtualCenter现在仍然是两个不同的产品,但ESX Server需要依靠VirtualCenter的一些关键功能,例如VMotion、DAS和DRS。另外,需要VMware完整的高级功能的用户必须同时部署ESX Server和VirtualCenter,没有VirtualCenter 2.0去部署ESX Server 3.0是不被推荐的。
VMware ESX Server 3.0和VMware VirtualCenter 2.0的新功能包括:
EMC Documentum ECM平台
Documentum ECM企业内容管理平台提供一个功能全面的基础结构,使人们能够创建、捕获、管理、处置、分发和存档所有形式的非结构化内容。该平台提供专门为企业文档管理、Web内容管理、数字资产管理、业务过程管理、记录管理、协作和公司治理/法规遵从性而设计的产品。以下以企业文档和图像管理和Web内容管理为例介绍Documentum ECM平台。
Documentum ECM企业文档和图像管理模块包括四个组件:
- 最新文章
- 虚拟存储在电信业价值凸现[01-02]
- 中小企业磁带存储设备选购三步曲[01-02]
- 以存储归档发掘电信客户价值[01-02]
- IDC全球信息总量将超出存储载体容量[01-02]
- HP介绍Storage Essentials 5.0存储管理..[01-02]
- HDS:存储虚拟化能力比内部容量更重要[01-02]
- 相关文章
- IDC:三季度存储软件强势增长 IBM和NetAp[01-02]
- VERITAS推出新版存储管理软件Storage Fou[01-02]
- EMC第四季度存储软件市场份额继续领先[01-02]
- IBM将改变其存储软件销售策略[01-02]
- 一个容易忽视的存储过程问题[01-02]
- 业界评析:存储软件厂商纷推iSCSI产品[01-02]
