图形可视化呈现用户、业务和应用系统的相互关
分类:巴黎人-服务器

透过5.28惨案看IT系统化运维,东华网智为您支招

2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下跌6.19%,创业板下跌5.39%,创4个月来单日最大跌幅,全国股民人均赔两万!正当股民们心灰意冷,打算出去看看世界的时候,携程挂了!

图片 1

从11:09分开始,到晚上22:45分恢复,此次携程网站崩溃时间共持续了近12个小时。事后携程的官网解释:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。

从携程的声明来看,导致此次事件的直接原因是员工误操作造成,但有一个现象非常形象地描述了目前IT运维的真实状况:

系统出现故障后→

1、业务使用者最先发现应用受到影响,开始抓狂和投诉。

2、继而运营监控的各种大屏幕会出现流量的异样图、系统告警图。

3、最后轮到攻城狮们手忙脚乱进行troubleshooting,挨个设备的各种telnet/ssh抓取信息。

4、可以定位故障的,对症解决;不明所以的,尝试重新启动设备或者切换备份方案。

5、提交故障报告、问责、致歉、危机公关等等

目前的IT运维系统,可以查看链路状态,监控设备资源利用率,故障告警,但从业务的角度来说,还缺乏一种手段对这些数据进行系统性的分析,呈现出更明确更有意义的结论,以便在突发事件时,启动预案、快速定位和给出指导性建议。

携程事件再次向我们表明了新常态下,系统可靠性的重要作用,据统计,这次宕机给携程网造成的直接损失超过数百万美元,股价暴跌11%。云计算、大数据、互联网+ 的空前繁荣,让IT运维面临前所未有的挑战,如何及时全面的掌握网络、主机、数据库、存储、桌面等各类资源的运行情况?如何使我们的运维工作未雨绸缪,做到防患于未然呢?

图片 2

IT运维人员八种痛】

东华网智认为,互联网+时代,系统化的运维管理对企业有着不可估量的作用,规模化的IT系统和复杂的业务系统稳定运行是信息部门的重要职责,如果发生故障不能及时准备定位,引发业务中断,给企业带来的损失是巨大的,同时,企业IT治理、流程规范、智能巡检将有效减少违规操作、消弭隐患,降低故障发生机率。换言之,企业需要一套清晰、智能化的运维管理系统来帮助IT人员提高对整个业务系统的把控能力,而东华网智正是致力于精细化IT服务管理,帮助企业建立健全IT运维管理体系,实现IT“监.管.控”一体化,全面提升IT服务质量。

图片 3

东华IT服务综合管理解决方案技术架构】

“监”之综合监控

对IT基础架构和业务系统的实时监控,能够帮助管理人员准确定位故障,及时处理问题,并在警戒阈值达到前,将系统隐患扼杀于摇篮。东华IT综合监控范围涵盖机房动力环境、网络设备、服务器、数据库、中间件、虚拟化资源、桌面终端、通用服务等IT资源的运行状态及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等远程非代理监测和Agent代理监测,根据管理规模不同支持分布式采集和集中管理模式,提供7X24不间断监测服务。系统将复杂的技术指标、监控状态等以图形化方式展现给客户,支持机房、办公区域、场所的3D可视化展现,大大提高用户的操作便捷性及工作效率。  

“管”之性能管理

系统不宕机、应用可访问只是保障业务连续性的入门级要求,在“永远在线”的互联网+时代,最终用户的应用体验成为关键要素。东华网智强调“业务服务视角”,分段监测业务系统的每个过程环节,快速解析应用问题并将问题范围定位到具体的应用组件,帮助运维者实现对业务应用问题的监测、定位和诊断,达到先于用户发现问题,提前建立紧急预案,保障业务可用性,提高用户体验。

“控”之流程把控

携程宕机的问题最终定位为“员工误操作”,实际是流程管控和权限设置不当,“人为因素”在很多IT事故中不是小概率事件,必须要依赖必要的IT手段将流程僵化再优化,将人为因素将至最低,操作是否合规,变更是否合理,访问是否越权,数据是否备份,一切全部由流程铁律进行约束。东华网智IT运维管理系统的目的正是通过建立一套标准的运维服务流程,围绕事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理等ITIL最佳 实践,帮助用户实现IT运维服务的流程化、规范化管理,最终让IT的“精确化”制约人力的“随机化”。

5.28携程的重大故障虽然是一次灾难,但也为所有的企业敲响了警钟,安全生产重于泰山,一个误操作带来的可能就是毁灭性的损失。在互联网企业各项业务都依赖IT系统的今天,做好IT系统的运维管理工作无疑是保障业务正常运行的核心所在。

专业的事一定要交给专业的系统来做,让5.28事件不再重演,让企业长青!


图片 4


2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下...

面对复杂的异构环境,如何及时全面地掌握网络、服务器、数据库、存储、安全等各类设备的运行情况?

前言:IT监控运维系统,起源于各设备厂家的网元网管等监控工具,伴随着信息化的发展而升级换代,经历了大数据、虚拟化、云计算等技术革命的考验逐渐完善成熟。IT监控运维系统从最开始的解决故障,到提供高效的运维服务,已逐渐成为IT运维部门日常运维工作中必不可少的工具。

图片 5

BKJIA.com 综合报道】随着信息化建设的深入,IT管理已经提上了企业的重要议事日程,而以服务管理为核心的ITSM解决方案更成为众多厂商的首选,因为IT管理和业务管理的融合已经成为企业信息化建设的趋势,也成为IT部门转变的重要衡量标准。相对于单纯的网络管理,IT服务管理对IT运维厂商提出了更高的要求。

面对越来越复杂的业务、越来越多样化的用户需求、不断扩展的IT应用,如何保障IT服务灵活便捷、安全稳定地运行?

随着企事业单位IT系统规模不断扩大,构成IT基础的设施呈现出规模庞大、结构复杂、品牌众多的特点,为实现信息资源合理配置、有效管理,确保系统安全可靠运行,IT集中监控系统的建设成为企业信息化运维工作的重点之一。同时,运维活动也缺少管控,如没有构建服务台、知识库、CMDB、事件管理等基本流程。此外,监控运维并不是简单的“监控+流程”,两者的有效结合也是一个难点。

罗泽,勤智运维区域技术工程师,从事网络建设工作多年,熟悉网络的设计搭建,精通交换、路由、无线、网管产品配置。

企业信息部门往往需要面对网络、服务器与业务应用、安全设备、客户端PC和机房基础环境,从基础环境到业务系统的复杂管理需求让IT管理人员面临着巨大的压力,如何举重若轻,实现对IT系统的集中、统一、全面的监控与管理。下面我们来看广通信达的ITSM解决方案架构,方案通过融入ITIL等运维管理理念,达到了技术、功能、服务三方面的完全整合,实现了IT 服务支持过程的标准化、流程化、规范化,极大地提高了故障应急处理能力,提升了信息部门的管理效率和服务水平。

IT运维应运而生。

传统运维面临的问题

互联网的迅猛发展使信息系统建设加快、规模变大,不同的信息系统中设备类型和数量增多,网络结构日益复杂,导致系统故障无法精确定位、系统状态难以实时掌握等问题时有发生,这些都给运维人员带来了很大的工作压力。可视化技术的应用,改变了传统的人工运维,让运维由繁化简。

广通信达为用户定义了明确了运维层次,通过层次化的管理化繁为简,确保信息部门各司其职,总体围绕企业的IT系统运转而进行。ITSM解决方案从四方面对企业的运维管理进行定位:被管理对象层、基础数据管理层、统一事件处理层以及运行服务管理层。

随着云计算、大数据、物联网、互联网+、IAAS的不断冲击,信息化部门也在考虑如何实现高效率的运维,将繁琐、重复工作简单化、自动化,DevOps自动化运维就显得尤为重要。

错综复杂的IT元素难以有效监控

什么是可视化?可视化就是将种类繁多的信息源产生的大量数据,通过映射成几何图元,再描绘成图形和图像清晰直观展现出来。

其中被管理对象层主要包括企业IT管理人员所关注的各类信息资源,包括网络、各类设备、服务器、操作系统、中间件、业务应用、安全设备、终端桌面、机房环境等基本实体。这些数据的管理直接关系到企业的网络环境的正常运行,因此从底层数据着手,体现了对IT服务的透彻管控。

DevOps故名思议就是Development和Operations的组合,是过程、方法和系统的统称,主要是为了把软件开发、技术运营和质量保证进行有效的结合,从运维到管理。

从宏观上看,IT设施种类各异,组成复杂,从最基础机房动力环境->基础网络->存储->X86(小型机平台)->系统->应用;从硬件到软件;从后台应用支撑服务到前台页面服务,这些错综复杂的IT元素很难有效整合监控。

对于运维来说,可视化就是提供一种高效、一致性、透明化、面向用户的服务,也是运维的价值所在。如下,我们从四个维度来探讨运维可视化。

其上一层次属于基础监测管理层,该层面主要包括实际完成各类被管对象的管理功能,从范围上主要包括网络设备、安全设备、服务器、应用平台、业务系统和终端桌面等,从功能看主要包括配置管理、拓扑管理、故障管理、性能管理等,基础监测管理层向相关领域的专业技术管理人员,通过技术人员的操作将实时反馈相应基础设备的数据反馈,而这些数据的成为ITSM解决方案中不可或缺的重要支撑,因为只有通过数据才能反映系统是否正常运行,实现提前告警的先决条件,也是对企业整体网络环境运行状态分析的重要指标。

运维,就是日常的运行维护,而DevOps是从制定计划到运营终止全生命周期的管理,那么DevOps自动化运维如何实现呢?

从微观上细究,特定IT设施种类各异,品牌繁多。以存储为例,品牌涉及IBM、HP、EMC、Netapp 日立、华为、浪潮等,监控对象指标包含磁盘阵列的各个组件,指标包括风扇、电源、电池、控制器、硬盘的状态、实时性能,以及交换机的各温度、电池、主机映射关系等,获取这些指标并非易事。

从业务角度看,构建业务应用分析模型,对各业务系统进行横向对比分析,包括健康度、繁忙度、可用性、宕机次数、宕机时长等,准确衡量业务系统的健康水平差异。图形可视化呈现用户、业务和应用系统的相互关联关系,一方面掌握应用系统异常对业务、用户的影响和威胁,另一方面实现IT与业务交互,将IT对业务的支撑价值完整体现。

基础监测管理层收集到的数据经过归并分析整理,上传到统一事件管理层。顾名思义,事件管理层具备接入不同的基础监测系统的事件能力,强大分析引擎及事件规则库确保告警是准确可靠的,大大缩减了无关紧要的告警信息,从而让IT管理人员能更迅速定位真正故障的原因。在此基础上,通过事件管理提供的处理策略,完成真正告警的通知和自动化处理,由故障进而进行业务关联性分析,对企业重要业务系统的运转起到良好的保障作用。

了解应用在全生命周期中每一个周期都需要什么样的工作、平台、组织、人员进行匹配支撑,如敏捷管理、持续性的交付、IT服务管理等。

传统运维工具单一,无法集中管控

图片 6

最终由事件管理层上升到运行服务层,这也是信息部门最直观面对的IT管理层次,广通ITSM解决方案提供了集中的、全面的直观监控呈现,便于快速发现和分析各类运行隐患,从网络拓扑、业务视图、告警监测、资产视图、统计分析等方面为企业IT管理出谋划策,不仅实现了轻松运维,而且能提高IT服务质量,保障业务的稳定运行。相信业务的无间断运行是企业最愿意看到的局面,也是广通ITSM解决方案的宗旨所在。

持续性交付是核心,持续性交付的起点是应用需求的形成,重点是应用的高效运行,持续的优化、改进、审查、测试、部署、运营,形成PDCA闭环维度。

企事业单位用户可以通过厂家提供的管理工具,如vmware 的VC客户端,存储的管理客户端,硬件服务器的web管理控制台,或者通过查看日志/硬件设备的指示灯等方式查看运行状态和性能指标。显然,这些零散的方式会增加运维工作量,影响故障发现的及时性,IT运维人员迫切需要一个统一集中的平台将以上监控任务有效整合。同时,由于缺少有效的流程管控机制,运维工作总是处于“救火式”状态。事前无准备,事中无跟踪,事后无法追溯,运维经验无法沉淀积累与复用。

业务视图

整套方案同时还提供了第三方集成接口,主要分为输入和输出两个部分,输入部分对应分布式数据采集接口,而输出部门帽对应系统数据交换接口,通过系统数据交换接口,企业可建立多层系统部署的数据交换和贯通,同时也能和其他第三方面系统进行良好的集成,确保企业IT投资的利用最大化。

传统运维面临的问题

运维过程无流程或流程不成体系

从网络架构角度看,网络架构图天然记录了系统的拓扑结构,可有效了解网络系统,然而由于缺乏有效的管理,网络架构图普遍存在规范性差、版本混乱、信息单薄、获取困难等问题, 清晰直观展现和管理网络架构图的重要性愈发凸显。网络拓扑图以图形化的方式,显示整个系统中主要设备的实时运行状态,动态生成实时的数据流向图。

整体来看,广通ITSM解决方案,为用户提供了从基础环境到业务系统的融合管理,保障了以业务为核心的IT系统得以持续稳定运行,从而有力助推了企业的信息化建设进程。

传统的IT运维是将数据中心中的网络设备、服务器、数据库、中间件、存储、虚拟化、硬件等资源进行统一监控,当资源出现告警时,运维人员通过工具或者基于经验进行排查,找出问题并加以解决。但是,随着互联网+时代的到来,移动互联网、云计算和大数据技术得到了广泛应用,从而导致企业所管理的IT架构不断扩大,服务器、虚拟化、存储设备的数量越来越多,网络也变得更加复杂,业务流程越来越繁琐,传统的运维管理也越来越力不从心。主要表现以下几个方面:

随着信息化及互联网+普及推广,企事业单位已经从大规模的信息化建设向信息化运维转变,运维团队不断扩大,信息化管理流程日益复杂,之前的纸制化审批流程效率低,难以适应新环境下的流程管理,需建立统一、规范、层次化的服务管理流程和服务管理体系。面对复杂的IT环境,缺乏规范化、自动化的运维处理流程,缺乏完善的故障处理和快速修复机制。

图片 7

综合报道】随着信息化建设的深入,IT管理已经提上了企业的重要议事日程,而以服务管理为核心的ITSM解决方案更成为众多厂商的首...

图片 8

看OneCneter如何破局?

网络拓扑视图

IT环境异构:系统软硬件种类繁多,导致运维人员运维监控压力大,日常工作量繁重。

勤智运维磨砺多年,深刻理解IT运维“建设易,管理难”的特点和ITaaS背景下的服务转型阵痛,结合多年运维实践及对ITSS国家标准的制定与理解,推出OneCenter一体化智能运维管理平台,将“监控、管理、治理”三方面有机融合。

从故障管理角度看,全面采集设备资源、应用、服务等告警信息,多种告警机制,自定义配置告警阈值。将告警信息数据按照时间、资源、性能类型等维度以图表等形式展现。当业务系统出现问题时,可直接定位故障源头并将报警信息及时推送给运维人员,保证运维人员第一时间了解故障点并进行解决,对各种问题进行统计分析,多元化的展现给运维人员。

故障发生后,运维工程师花费大量精力排查问题,无法快速和准确的定位问题,治标不治本。

OneCenter一体化智能运维管理平台可以让IT监控运维智能、高效、简单、统一,帮助运维团队实时、全面掌握IT运行态势,及时响应和处理IT故障,为各企事业单位业务提供强有力的IT支撑和质量保障。

图片 9

由于设备数量巨大,日常巡检占用大量时间,导致工作效率低下,事倍功半。

一体化IT设施监控体系

统计分析视图

本文由巴黎人手机版发布于巴黎人-服务器,转载请注明出处:图形可视化呈现用户、业务和应用系统的相互关

上一篇:1)运维是指大型组织已经建立好的网络软硬件的 下一篇:为智慧城市建设提供了广阔的发展空间巴黎人澳
猜你喜欢
热门排行
精彩图文