问题管理
Problem Management

快速参考
问题管理流程使IT组织能够:
· 查明IT基础设施中事件/错误的原因
· 消除IT基础设施中的问题
· 提供问题的永久解决方案
· 阻止问题的再次发生
问题管理流程带来以下收益:
·
改善IT服务质量
· 提高一线解决率
问题管理流程的活动范围包括:
· 问题控制活动
  - 鉴别问题的根本原因,比如确认引起错误或问题发生的配置项(CIs)
  - 为服务台提供临时措施和建议
· 错误控制活动
- 记录、跟踪和消除错误
- 执行变更管理建议的变更来解决这些错误
- 评价这些变更确保解决方案有效并防止问题再次出现
问题管理流程的基本概念:
· 知名错误
· 临时措施
· 被动问题管理活动
·
主动问题管理活动
问题管理流程的输入:
· 来自事件管理流程中事件的详细资料
· 事件管理流程中定义的临时措施
· 配置管理数据库(CMDB)中详细的配置信息
· 从供应商处购买使用的IT基础设施的产品(硬件和软件)的详细信息
· IT基础设施本身以及其行为的详细信息,比如:能力注册和性能监测信息
问题管理流程的输出:
· 知名错误(Known Errors)
· 变更请求(RFCs)
· 实时更新的问题记录
· 已解决问题的终止记录
· 监测问题管理流程有效性的管理信息
问题管理流程的主要活动包括:
·
问题控制,包括趋势分析、定义和调查问题等活动
· 错误控制,包括监测知名错误和提交变更请求等活动
· 提供信息,如IT基础设施中主要问题的解决方案等
问题管理流程的角包括:
· 问题经理
  - 开发和维护问题控制和错误控制流程
  - 评估问题控制和错误控制活动的效果
  - 为管理层提供与问题相关的信息
  - 管理问题支持人员
  - 为各项支持活动分配资源
  - 评估主动问题管理的效果
· 支持团队
- 被动职责
  · 通过分析事件的详细情况识别和记录问题
  · 根据问题的优先级调查研究问题
  · 提交变更请求消除错误
  · 监控知名错误的解决方案
  · 为事件管理小组提供临时措施和快速修复的建议
- 主动职责
  · 确认问题的趋势和潜在根源
  · 提交变更请求防止问题再次发生
  · 防止问题在多个系统中复制
问题管理流程与下列ITIL流程间关系紧密:
· 配置管理
· 变更管理
· 事件管理
· 服务级别管理
· 可用性管理
· 能力管理
下列瓶颈可能阻止有效执行问题管理流程:
· 事件管理和问题管理流程间缺乏联系
· 开发环境与实际运行环境中的知名错误间缺乏联系
· 缺乏管理层承诺
关键绩效指标:
· 问题解决后事件的数量
· 解决问题需要的时间
· 解决问题过程中发生的成本(人员,物力资源等)
问题管理流程中关键成功因素:
· 自动化事件记录和分类
· 制定切实可行的目标并最大限度运用专业人士的建议
· 事件管理和问题管理流程之间有效的协调

详细内容
》目标
鉴别IT基础设施中的错误(errors)或事件(Incidents)的原因。这个流程的主要目标是提供解决问题的永久性方案,防止事件的重复发生,从而把事件/问题对业务的影响降到最低。
》通用词汇
知名错误/已知错误(Known errors问题经过诊断后到根本原因时所处的状态称之为知名错误。在这种状态下,临时措施(workarounds)或永久性的方案已经得到确认。如果出现了一个知名错误,则应当提出一个变更请求(RFC)。但是,在通过一项变更将此知名错误永久性地修复之前,它仍将作为一个知名错误。
临时措施(Workarounds临时措施是解决事件的临时修复方法或技术,目的是使用替代措施暂时消除客户对服务的依赖和减少事件对客户的影响,该事件的永久解决措施有赖于对
该事件潜在问题的最终解决。通过临时措施,客户能够在没有中断的情况下继续使用服务。临时措施通常会使用户的工作方式发生变化,比如从使用另一台PC、使用早期版本的软件、或临时提供更多的磁盘空间。
被动问题管理活动(Reactive Problem Management与主动问题管理相对应的概念。被动问题管理活动指在事件/问题发生后去寻问题的解决方案的活动。被动问题管理有助于寻事件/问题发生的根本原因。通过这些活动来建议采取永久性解决方法以杜绝事件/问题的再次出现。
主动问题管理(Proactive Problem Management主动问题管理活动指在事件发生之前发现和解决有关事件/问题和知名错误,从而使事件对服务的负面影响及与业务相关的成本减小到最小。该活动有助于识别IT基础设施的薄弱环节并给出相应的对策建议。
类别(categories问题被归类到不同的组或域中,比如:硬件、软件和支持软件。根据分类,问题被分派给相关的支持人员。
事件影响度(impact衡量事件影响业务大小程度的指标。
事件紧急度/紧迫性(Urgency of the Incident事件紧急度指解决具有一定影响度(impact)的事件的必需速度(高、中、低)。
优先级(priority事件优先级取决于事件对业务的影响度与需要解决的紧急度。
》流程
流程输入
来自事件管理流程中事件(Incident)的详细信息
事件管理流程中定义的临时措施
配置管理数据库(CMDB)中详细的配置信息
从供应商处购买使用的IT基础设施的产品(硬件和软件)的详细信息
IT基础设施本身以及其行为的详细信息,比如:注册的能力和性能监测信息
流程输出
知名错误(Known Errors)
变更请求(RFCs, Requests for Changes
实时更新的问题记录
已解决问题的终止记录
监测问题管理流程有效性的管理信息
活动
问题控制(Problem Control,包括趋势分析、定义和调查问题等活动
错误控制(Error Control,包括监测知名错误和提交变更请求等活动
提供信息(Providing information,如IT基础设施中主要问题的解决方案等
问题控制
鉴别和记录问题,并分析历史趋势
根据对业务的影响将问题进行分类
调查和诊断问题
错误控制
错误鉴别和记录
错误评价
记录错误解决方案,提交变更请求
在问题终止前,进行实施后评审(PIR)以确认解决方案的效果
监测问题/错误的解决方案(持续性的活动)
提供信息
问题管理团队负责提供事件的权宜措施(Workarounds)和快速修复(quick fixes)策略给:
事件管理团队
服务台
通过服务台报告问题的用户
角和职责
问题经理负责问题管理中的所有活动。问题经理的职责包括:
开发和维护问题控制和错误控制流程
评估问题控制和错误控制活动的效果
为管理层提供与问题相关的信息
管理问题支持人员
为各项支持活动分配资源
评估主动问题管理的效果
支持团队成员协助问题经理,有两类职责:
被动职责
o 通过分析事件的详细情况识别和记录问题
o 根据问题的优先级调查研究问题
o 提交变更请求(RFCs)消除错误
o 监控知名错误的解决方案
o 为事件管理团队提供临时措施和快速修复的建议
主动职责
o 识别问题的趋势和潜在根源
o 提交变更请求防止问题再次发生
o 防止问题在多个系统中复制
与其他流程的关系
reactive和proactive与服务级别管理流程的关系
服务级别管理团队为问题管理团队提供经协商的服务级别信息。问题管理团队根据这些信息将问题进行分类。例如,如果服务级别团队与客户达成包括紧急性问题解决方案在内的服务条款,那么问题管理团队就可以根据相关条款定位高紧急度和高优先级的问题。
与变更管理流程的关系
变更管理与问题管理密切相关。为消除错误,问题管理小组建议变更IT组件。问题管理小组提出的这些建议作为变更请求(RFCs)输入给变更管理团队。变更管理流程评估提议变更的影响度并通知问题管理所提议的变更的进展和完成情况。
与配置管理流程的关系
配置管理提供了IT基础设施组件的详细信息,如软硬件配置、服务等。问题管理流程利用这些信息确认问题的影响度(impact)和紧迫度(urgency)。
与事件管理流程的关系
问题管理借助事件(Incident)记录确认错误。此外,问题管理小组向事件管理小组提供临时措施(workarounds)直到到彻底解决事件的永久性方案。
与可用性管理流程的关系
可用性管理流程为问题管理团队指定可用性级别。相应地,问题管理流程识别造成实际可用性和协定的可用性级别之间不一致的那些问题。然后,问题管理流程就可以尝试诊断和消除这些问题。可用性管理团队根据从问题管理流程那里获得的信息来优化可用性计划以防止这些问题和事件的再次发生。
与能力管理流程的关系
能力管理流程可以优化资源使用。它为问题管理流程有效地解决问题,提供了与能力(capacity)相关的信息。同时,问题管理团队通过确认和解决能力相关问题的原因来协助能力管理流程。
》常见的问题
如果事件管理小组不能正确地记录事件和相关IT组件的详细信息,那么问题管理小组也就不能准确地对问题进行分类。
从开发环境到实际运行环境的软件应用系统应伴有知名错误的详细记录信息。如果问题管理流程对这些知名错误信息了解不够,那么问题管理流程需要重新定义这些错误,从而造成了重复性劳动。
如果缺乏管理层的承诺,问题管理的支持人员可能会忽视问题管理流程中潜在的主动解决问题方面的努力。如果IT基础设施中潜在的问题没有提前被检测和清除,那么将来事件的发生率就会上升。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。