《系统运维方案》word版 本文关键词:方案,系统,word
《系统运维方案》word版 本文简介:系统运维方案一、企业面临的问题1、缺乏集中的监控管理平台,运维管理人员无法主动掌握IT平台的运行情况,对主机系统、网络系统、数据库、应用系统等没有合适的手段进行监控,无法做到快速的主动预警、快速的故障定位和故障排除。2、被动的运维管理模式导致运维人员对故障后知后觉,重复劳动多,工作强度大,最终IT部
《系统运维方案》word版 本文内容:
系统运维方案
一、企业面临的问题
1、缺乏集中的监控管理平台,运维管理人员无法主动掌握IT平台的运行情况,对主机系统、网络系统、数据库、应用系统等没有合适的手段进行监控,无法做到快速的主动预警、快速的故障定位和故障排除。
2、被动的运维管理模式导致运维人员对故障后知后觉,重复劳动多,工作强度大,最终IT部门、各业务部门都不满意。
3、建立在手工基础上的巡检工作,难免有主观性强、随意性强的缺点,数据不能真实反映系统的运行状态,并且一旦岗位流动,不能保证系统维护的延续性。
4、IT管理部门无法掌握现有IT资源是否充分发挥了作用,系统如何配置更能满足业务发展的需要,一切都确乏科学的数据做为投资决策的依据,难免造成盲目投资、重复建设的巨大浪费。给企业带来不可弥补的经济损失。
二、运维管理系统的作用
1、打破传统的“分散监控、分散管理”模式,通过建立一个集中的监控管理平台,实现对整个IT系统的“集中管理、统一运维”。
2、打破传统的“只有在出现问题时,才能被动应对”的后知后觉的服务模式,系统通过7*24小时不间断的监控,主动发现故障隐患,及时预警,以利于及时消除隐患,防患于未然,并能迅速定位故障,及时通知,有利于快速排除故障。
3、通过建立一个集中的监控管理平台,以“全面监控、准确预警、及时通知、快速解决”的方式,记录所有监控数据,并根据需要提供分析报告,有案可查,便于进行系统的、科学的分析和总结。
4、打破传统的IT部门对IT资源心中无底的状况,通过统一的集中监控管理平台,管理人员能够清晰地知道现有资源的合理性,实现资源的有机整合与充分利用,以科学数据作为投资决策的依据,避免了盲目投资、重复建设造成的巨大浪费。给企业降低了成本,提高了工作效率,提升了管理质量和企业的核心竞争力。
5、打破传统的IT维护只关注IT元素问题。在系统中可以为您集中展现银行业务系统的各种信息,为领导及时了解业务状况及时决策提供便利。
三、运维管理系统的功能特点
1、7*24小时自动监控功能:将以往固定的阶段性系统巡检工作,变为系统自动的7x24小时不间断检测,可代替人工进行值守。直接提升了系统的IT管理自动化程度,工作效率显著提高!
2、快速定位故障功能:将复杂的IT环境按照银行业务关联方式进行整合,能直观地看到整个IT系统的运行状态,及时准确的上报:是IT系统出现了什么问题,导致业务出现问题;可以迅速定位故障点,直接提高了维护部门响应及处理问题的速度。
3、系统自动预警功能:通过系统7x24小时不间断检测,并根据数据进行分析,一旦情况异常,系统自动产生预警信息及时通知各位领导及管理员,为防患于未然提供强有力的帮手。
4、管理及决策功能:直观的报告式系统性能统计表,使IT管理者及时了解IT系统各部分的运行状况,提供的历史性能和故障数据,为IT管理决策提供了科学的依据;并获得最直观的与业务有关的各种信息,为维护人员提供方便快捷的运维管理工具。
5、确保业务系统稳定性功能:保障业务的整体稳定性,提前发现网络中存在的各种潜在问题,提前处理,使故障率大大降低,网络故障时间大大减少,用户的投诉率明显减少,提升了业务服务质量,也降低了维护成本。
内网安全管理
1、所有域用户不能随便更改桌面背景,保证公司使用带有LOGO的统一背景。
2、所有域用户不能运行管理员已经限制的程序。
3、所有域用户禁止使用管理员权限。
4、
配置域用户所有IE的默认设定为本企业网站,保证员工打开IE可以直接访问到公司网站,且用户不能自行更改主页。
5、禁止域用户使用运行,防止打开注册表等修改系统配置(管理员除外)。
6、隐藏所有用户的C盘,防止用户误删除系统文件,造成系统崩溃。
7、禁用控制面板中“添加/删除程序”,防止用户随意添加windows组件及删除软件,造成系统问题。
8、取消光盘或U盘自动播放,以防止存储介质带入病毒或木马程序。
9、所有域用户禁止对IP地址进行修改。
通过组策略对AD域控制器进行设置,以实现以上内容
监控管理
实施方案:采用卓豪公司基于ITIL(Information
Technology
Infrastructure
Library信息技术基础架构库)架构的软件产品:ManageEngine
IT
360
ManageEngine
IT
360主要功能:
利用ManageEngine
IT360,可以轻松管理关键的业务应用。它采用无代理监控方法,监控应用服务器、服务器和数据库,从而降低成本,提高投资回报率。通过网络监控和带宽利用情况,管理员能够迅速排除网络性能相关的问题。利用基于ITIL的服务台,系统可以自动指派问题,提高IT服务水平。
1、业务服务管理
2
在IT资源中加入业务元素
2
定义依赖关系,提高故障管理和SLA管理
2
降低应用支持和维护费用
2
轻松排除故障
2、网络监控
2
端到端的网络设施平台,高级故障和性能管理功能,管理WAN、VoIP电话、网络设备
2
自动发现网络设备
2
一系列包含设备配置的设备和接口模板
3、服务器监控
2
采用无代理方式监控服务器
2
监控服务器负载、磁盘利用率、进程、内存利用率、磁盘I/O、服务器CPU利用率等
2
使IT管理员确定问题的根源在于操作系统、应用还是服务器
2
支持Linux,Windows、Solaris、AIX、HP
UX等
4、应用监控
2
监控CRM应用、财务应用等业务关键应用
2
通过监控Microsoft
.NET、Oracl、JBoss、Tomcat、WebLogic、WebSphere和SAP,保证应用服务器健康状况和可用性
2
监测和诊断应用服务器及其服务出现的问题,保证正常运行
5、数据库监控
2
监控包括Oracle、MS
SQL、Sybase、IBM
DB2
和MySQL的异构数据库服务器环境
2
数据库管理员可以规划资源需求,及时排除故障
2
数据库大小、缓存大小、数据库连接时间标签,方便查看
6、带宽监控
2
从支持NetFlow的设备直接导出NetFlow,详细了解网络中带宽使用情况
2
查看带宽使用图样,生成报表,无需部署硬件探针,节约成本
2
深入了解网络流量及其模式
2
实时掌握网络状况,以及流量如何影响网络总体健康状况
7、IT资产管理
2
硬件和软件资产的完整清单
2
通过无代理方式的扫描,跟踪资产的所有关系和历史
2
计划性的资产审计
2
快速确定资产与业务服务或其它资产的依赖关系
2
跟踪企业中软件的使用情况
2
监视软件许可
8、基于ITIL的服务台
2
集成服务台,从一个位置管理所有交流
2
基于ITIL的服务台包括事件管理、问题管理、变更管理和配置管理
2
包括解决方案(知识库)模块,便于解决常见问题
2
能够将系统告警在服务台自动转化成工单
2
自动将工单指派给相关技术员或技术组
9、性能报表
2
界面简洁直观
2
能够对每个监控的属性生成报表
2
计划自动邮寄报表
2
报表可导出为PDF、CSV或XLS格式文件
2
可查看过去一周或一个月的历史数据
ManageEngine
IT
360产品属于软件套件,内含不同的软件以实现不同的功能。下面将以其中之一软件opmanager为例,说明其职能。
灾难管理
需求分析:
公司现有信息平台承载着各种服务独立应用,包括:DHCP、DNS、AD、OA、SAP等,这些应用需要独立系统来控制保障安全可靠。未来随着企业的发展,将会增加WEB、SQL、MAIL
等平台服务。
传统解决方案及分析:
传统独立的系统平台方式为了保障安全,基本上是一个应用系统对应一台服务器,如果两种应用配置在一台服务器上可能会造成业务冲突,或者一种应用由于宕机或者病毒等故障造成所有应用的停止。为了采用应用系统连续性的双机热备系统,则需要一台服务器闲置作为standby
服务器。
传统服务器解决方案的有诸多弊端:
(1)运营和维护成本高
服务器大大增加了对数据中心空间、机柜、网线、耗电量、冷气空调和人力等成本需求。
(2)服务器利用率低
像DHCP、DNS、AD、OA、SAP应用对服务器的CPU、内存的使用率都极低,特别是对于目前多核高性能CPU的服务器时代,有的甚至长年不会达到3-5%,绝大多数系统资源利用率通常不足15%。
(3)IT
服务水平差,不能快速响应业务需求
服务器的硬件维护需要宕机,某些重要应用被排除在了灾难恢复的范围之外,或者有些灾难恢复时间过长,服务器与老的操作系统或者业务之间存在兼容性,诸如此类等问题都会影响IT
服务水平,从而使得公司办公效率降低。
(4)系统扩展性差
当有新的应用系统时候,不能及时部署,需要申请购买新的服务器。
这些问题直接导致IT
总拥有成本(TCO)升高,IT
投资回报率下降,系统可管理性降低,运营效率与响应速度降低。而服务器虚拟化技术正是解决这些问题的一个好方法,运用虚拟化技术,不仅可以大大降低TCO、提高运营效率、提高服务水平,而且虚拟化软件本身还为您提供高可用性和负载均衡特性,保证客户应用的连续性。
虚拟化概念简介:
服务器虚拟化是在服务器上安装一个虚拟机监控器(Virtual
MachineMonitor,VMM)软件,将服务器物理的CPU、内存、网卡和硬盘等资源抽象出来,映射成若干个虚拟的CPU、内存、网卡和硬盘,构成虚拟机,每个虚拟机上可运行一个独立的操作系统和若干应用软件。虚拟机的产生打破了操作系统和硬件的互相依赖性,屏蔽了硬件平台的动态性、分布性和异构性,实现了硬件资源的共享和复用,提供多个独立的、隔离的应用环境。虚拟化有如下四大特性:
(1)分区:在单一物理服务器上,可以同时运行多个虚拟机;
(2)隔离:在同一台虚拟机服务器上运行的多个虚拟机实例彼此完全隔离,互不影响,任何虚拟机的故障,包括病毒感染、黑客攻击等,都不会影响其他的虚拟机。
(3)封装:虚拟机将硬件配置、操作系统、以及应用等整个系统封装在文件里。封装特性为虚拟机应用带来了极大的方便性
(4)硬件独立:一个虚拟机可以在其他虚拟机服务器上不加任何修饰的运行,降低了软件对硬件的依赖性。
建设目标:
(1)
先进性
选择当今先进的存储技术和存储设备,保证在今后数年的技术先进性,整个系统的生命周期应有比较长的时间,在系统建成以后比较长的一段时间内能满足需求增长的需要。
(2)
通用性
实用有效是重要的设计目标,设计结果必须满足需求并且有效、不虚设。系统设计要考虑到3-5
年内的技术发展,应切实保证系统所选择的设备和系统结构都具有很好的性价比;选择设备要通用性高,具备前向和后向兼容性,支持今后对系统的扩充。支持多种操作系统和多媒体网络应用软件。
(3)
安全性
稳定性能,容错能力强,操作、管理、维护简单并具有良好的安全性。能够在多个层次上实现安全机制。提供多种有效可行安全措施,保护数据安全。制定严密的数据备份方案和技术保障措施,当系统出现故障时,系统数据能得到及时恢复。系统应保障关键应用的连续性。保证当意外情况发生时,系统能够平稳、正常的运行和工作。
(4)
灵活性
系统配置灵活,备用和可选方案多,能够随着内部和外部应用环境的改变随之做出相应的调整,使整个系统具有很强的升级性和可扩展性,能够适应应用和技术发展的需要。
(5)
高管理性
整个系统可以通过完善地控制界面来管理和监控,对系统进行实时的监控和维护,降低了运行的成本。
虚拟化方案:
虚拟化软件:Citrix
Xenserver5.6
服务器:IBM
system
x3650
SAN存储:IBM
storage
DS3500
Xenserver企业级功能:
h
动态迁移:XenMotion
h
高可用性:High
Availability
h
物理机到虚拟机转换:XenConvert
h
快速置备:Provisioning
Streaming
h
服务器管理:XenCenter
动态迁移:XenMotion
h
XenMotion允许迁移正在运行的虚拟机而无需中断服务
h
安计划实施维护时无需停机
h
在不同的服务器间负载平衡虚拟机
高可用性:High
Availability
h
服务器故障时自动重启虚拟机
h
剩余服务器上智能负载均衡
h
可配置的保护级别和告警
转换工具:XenConvert和p2v-legacy
h
XenConvert支持Linux平台从物理机到虚拟机的转换
h
p2v-legacy支持Windows平台从物理机到虚拟机的转换
转换格式和类型:
直接转换XenServer到并启动
h
VHD(微软虚拟机格式)
h
XVA(可导入XenServer)
XenCenter:多服务器管理
h
管理多台服务器
h
创建并部署虚拟机
h
性能监视
h
调整资源分配
h
与虚拟机交互
方案说明:
(1)
两台服务器用作虚拟机服务器,在裸机上安装xenserver,然后在其上安装若干个虚拟机,每个虚拟机根据应用需求安装不同的操作系统及应用。
(2)
根据待整合服务器的具体网络访问需求划分VLAN,从而将虚拟机之间的流量与物理服务器的流量相隔离,降低网络负载,提高安全性和简化重新配置过程。
(3)
服务器用于安装xenserver和保存资源池的数据,存储采用IBM
Storage
DS3500,保存所有虚拟机的虚拟镜像文件(Virtual
Disk
Image)以支持XenMotion和HA。服务器通过iSCSI方式连接
SAN
存储。
(4)
资源池中的服务器均配置4块SAS硬盘,设置成RAID-5,只用于安装Xenserver和保存资源池的元数据,目的是防止本地硬盘出现单点故障,提高Xenserver本身的安全性。
(5)
为了虚拟机安装配置方便,将配置ISO镜像库,可以将ISO格式安装源文件通过windows
CIFS方式挂接在xencenter上,这样创建新虚拟机时不再需要使用物理光驱和光盘,简化使用和提高安装速度。
(6)
在PC机上安装xencenter,通过网络连接到服务器,可以对所有的虚拟机和虚拟机物理服务器进行集中管理,还可以实现访问控制、动态资源管理、模板制作等功能,会给管理员的IT
管理带来有效的帮助。
(7)
利用XenMotion能够将正在运行的虚拟机从一台
XenServer主机上迁移到另外一台,而不带有任何停机的危险。在整个迁移过程中,被移动的虚拟机在任意时刻都处于正常的工作状态。XenMotion
的主要目的是在某台服务器需要进行计划维修的情况
下,终端用户无法觉察到应用程序出现过极短暂的中断,令整个服务过程正常顺畅。
(8)
启用
HA
后,XenServer
将持续监视主机的运行状况。如果当前
VM
主机发生故障,HA
机制会自动将受保护的
VM
移动到一台运行状况良好的主机上。此外,如果发生故障的主机是主节点,HA
会自动选择另一台主机来接管主节点的角色,以便您能够继续管理
XenServer。
xencenter管理和虚拟机管理需要的网络端口:
应
用
端
口
备
注
SSH-xenCenter
to
xenserver
tcp22
HTTPS-xenCenter
to
xenserver
tcp443
RDP-xenserver
to
VM
tcp3389
windows远程管理
VNC-xenserver
to
VM
tcp5900
linux远程管理
方案优势:
(1)
降低TCO
通过服务器整合,控制和减少物理服务器的数量,提高物理服务器系统资源的利用率,降低硬件成本;降低运营和维护成本,包括数据中心空间、机柜、网线,耗电量,冷气空调和人力成本等;提高IT
投资回报率。
(2)
提高运营效率
利用虚拟机的封装特性,大大加快了新服务器和应用的部署,大大降低服务器重建和应用加载时间;主动地提前规划资源增长,减少硬件维护时间,从以前的需要数天/小时的时间变为现在的零宕机的硬件维护和升级。
(3)
保证业务连续性
双机HA最大限度的保证了应用业务的连续性,保证业务在硬件、操作系统、应用系统等任何地方发生故障都不会影响业务的连续性。负载均衡功能不会让一台主机因负载过大而宕机;
(4)
扩展性
当需要新服务器应用时,可在虚拟机服务器上建立虚拟机来满足新的应用。
附
录
参考资料:
使用CrystalMark基准测试软件,在服务器上安装Xenserver5后同时运行不超过6台虚拟机进行基准测试。
测试环境:
服务器:HP
ProLiant
ML110
G5,采用8GB(2GB*4)内存,500GB
SATA硬盘以及Core
2
Quad
Q6600
CPU
每台虚拟机上安装Windows
server
2008,均采用单CPU和1G内存配置。
测试结果:
虚拟机台数:1台
WS08-01
WS08-02
WS08-03
WS08-04
WS08-05
WS08-06
ALU
10761
FPU
11336
MEM
19871
HDD
9917
虚拟机台数:2台
WS08-01
WS08-02
WS08-03
WS08-04
WS08-05
WS08-06
ALU
10827
10795
FPU
11366
11344
MEM
9515
9192
HDD
3555
3884
虚拟机台数:4台
WS08-01
WS08-02
WS08-03
WS08-04
WS08-05
WS08-06
ALU
10776
10726
10760
10746
FPU
11411
11318
11335
11274
MEM
9763
7570
6193
8134
HDD
972
1092
1539
1177
虚拟机台数:5台
WS08-01
WS08-02
WS08-03
WS08-04
WS08-05
WS08-06
ALU
10708
10698
10680
10312
10690
FPU
11300
11234
11244
11292
11191
MEM
8805
7527
7126
7979
8757
HDD
635
663
618
937
1513
虚拟机台数:6台
WS08-01
WS08-02
WS08-03
WS08-04
WS08-05
WS08-06
ALU
10661
10642
10602
10593
10615
10603
FPU
11268
11131
11181
11177
11105
11114
MEM
9041
8753
7695
7871
7763
8032
HDD
431
443
551
815
1068
687
测试结果表明:当虚拟机台数增加时,CPU的ALU(逻辑演算)和FPU(浮点运算)变化不大;但内存和硬盘的访问性会随着虚拟机台数的增加而降低。