电脑运维的基础知识_电脑系统运维管理办法

2024-06-17 23:33:21

1.如何应对大数据时代的运维挑战？

2.IT运维标准有没有正式出台？

3.IT运维管理面临的难题有哪些

4.当客户连不上公司网站时,作为运维工程师应该如何进行排查,提出较好的解决方法的思路

5.运维安全审计系统的相关厂商产品介绍

6.Linux运维工程师到底是怎样一种存在

电脑运维的基础知识_电脑系统运维管理办法

当前，我们需要认识的是自己究竟需要一个什么样的网络运维管理系统目标。当IT成为企业业务发展和管理不可或缺的组成部分，并在提供收益的同时又带来风险时，就需要对IT的管理有新的认识。当前，国内企业IT信息化正在经历从关注技术到关注业务的转变，高额投入的信息化如何服务于企业核心业务，提升企业运营效益，成为管理者关注的新焦点。一个良好的IT综合管理系统可以有效地监控操作系统环境、网络环境、数据存储环境、信息安全环境和业务应用环境，可以准确地定位和综合诊断系统异常的原因并提出修复的方案，可以有力地为业务系统保驾护航，让业务应用高枕无忧，从而使企业IT部门可以将更多精力投入在如何推动业务发展，实现IT投资的最终目的。另外一方面，由于国内的IT管理整体水平参差不齐，参加管理的角色多样，这也决定了一个良好的IT综合管理系统可以满足不同角色和不同视角对管理的需要。不同管理角色考虑不同的网络运维管理系统目标在一个企业中，不同角色的IT管理者，对IT环境的维护有着不同的需求：对维护者——值班运维人员而言，他需要一个简单易懂的巡检监控类平台，通过平台提供的各种信息帮助他快速简单的了解一些基本信息，包括网络、主机、服务、告警。值班人员主要看的是总览类型的数据。对网管员而言，他需要一个综合的平台，通过平台提供的各种工具帮助他了解并管理异构环境中发生的各种事件：网络拥塞、设备故障、服务器的利用情况、应用的可用性、网络中的流量异常情况等等;要拥护各种工具来定位问题和解决问题。对信息部门负责人——信息主管而言，他需要保证运行维护的规范性以减少意外的发生，同时需要掌握各种资源(网络设备、网络带宽、服务器、各种终端)的利用情况，为设备的优化和扩容提供强有力的依据。对于企业管理者——对于企业的最高管理者而言，他需要了解对IT信息化投资的回报情况，希望了解自己的下属通过网络做了些什么，对工作及业务产生了多大的效益。一个真正综合而全面的IT运行维护系统，才是用户的最终选择。这个系统应该兼顾多方面的需求，在一个统一的平台上，实现对异构的IT环境的运行、维护的规范化，对IT信息化的使用效果进行综合管理和分析。因此，必须从用户角度出发，对网络业务/服务，及其背后的IT基础架构(路由器、交换机、服务器等)进行全面透明的监控。用户都希望IT部门能提供保障业务的服务质量，不仅能在服务可用性、响应时间等方面提供确切的服务保证，还能在服务中断或停顿时，及时发出通知并解决问题。网络运维管理系统目标IT运维管理系统应该优先为用户提供保障业务系统稳定运行的解决方案。通过对整个业务系统的关注，保障业务系统正常运行。提供分阶段、分步骤、实用易用的IT管理系统，保证处在不同IT管理阶段的客户实现预期目标。有哪些具体的网络运维管理系统目标?提供明确的管理思路在网络环境日渐复杂的今天，我们的实际网络管理工作中需要对IT资源进行管理，以保证业务系统的正常运行。传统的头痛医头，脚痛医脚，这不是解决问题的根本办法，要从根本上解决管理的问题，必须从管理思路着手，只有这样，我们才可以对管理有清晰的认识，才能实现真正意义上的管理。这个管理思路应该贯穿始终，主动告诉我们应该关注什么内容，指导我们如何去进行管理，问题出在哪里，该从什么角度入手分析，主动定位问题的位置等。因此，我们需要运维管理系统提供明确的管理思路。提供直观的管理呈现方式无论在哪个企业，在对底层物理网络的结构和瓶颈的信息获取方面还没有更有效手段。传统意义上的数据分析和逻辑显示图的方式，已经远远不能满足当今运维管理的要求。直观的呈现方式无论是作为了解信息的方式，或者是发现问题的手段，都是最为直观的。为了更加有效的做到对现有网络的架构和健康状况分析和了解，直观的呈现方式必不可少。提供综合的一体化管理平台一直以来，企业的管理模式处于被动分散的维护状态，各个管理系统之间相对独立，底层数据无法共享。运维管理系统必须将这种现状转变为主动集中的控制和管理，避免操作时在多个系统之间来回切换，并将来自IT环境的管理数据最终映射为依赖这些资源的业务及职能的可用性和健康性，这是网络运维管理系统目标之重。提供多种发现问题和准确定位的管理机制作为成熟的运维管理系统，不仅需要提供直观的网络、应用和业务等视图。而且需要提供多种发现问题的机制，可以做到多渠道去分析和发现问题，并主动告警。实际工作中，网络中的各种问题总是会不期而至，通过运维系统提供的多种发现问题机制，可以做到及时的发现。当然，更为重要的是，发生问题以后，要能做到准确的定位，这样大大节省时间，提高工作效率。保障业务系统的稳定运行运维管理系统需要从业务角度切入，以业务为导向，通过对整个业务系统的关注，落实业务系统的各个环节，从而来达到保障业务系统稳定运行和透明化管理的网络运维管理系统目标。

如何应对大数据时代的运维挑战？

既然运维工作分为日常运维和项目运维，就可以分别来落实了。基本原则是思想上要认识清楚每项工作的意义，制度上要落实到位。落实到位最好的办法就是将思想和制度技术化。?

“技术化”通俗的讲就是通过各种软件系统来管理运维工作。打个很形象的比喻：?

我们日常开车，要对安全有很高的认识(思想层面上)，当然还需要制定交通法规(制度上)来指导我们开车，路上也会设置各种行车线。?

比如实线和虚线，路中间的实线就是不能碾压和跨越的，高速上的实线处还设立了很高和厚实的水泥防护栏，这个水泥防护栏就是思想和制度技术化的极端体现。实线拦不住不守规矩的车，但是水泥防护栏能!?

所以思想需要形成文档来固化，当文档最好要通过技术化的实体软件系统来固化以协助我们更正确的工作。?

有了体现思想的制度和软件系统，最关键的是：要用，天天用。还有，不是所有的文化思想都能固化的，还要培训和沟通，这些无形的和有形的都需要讲，换着方法的讲，日日讲。?

当然思想文化、文档制度、系统软件不是一天能完善的，也不是完善了就能高枕无忧的，需要集众人智慧，与时俱进，不停的进化下去。因为开放、向上、探索本身应该是一个良好运维团队的文化核心之一。

IT运维标准有没有正式出台？

在企业内部也是一样，当大量的生产和经营数据集中在数据中心，一旦人们与数据中心因为IT故障而失去联系，停滞的也许不是个人应用受阻这样简单的后果。为了应对大数据下的新业务需求，传统的IT运维管理就需要针对数据中心基础架构做出改变，这种进化包括针对虚拟化和服务交付能力的调整，以及IT与业务融合所必备的方法和工具。数据中心迎来了“按需配置”的变革过去，每次当我们的数据中心的业务容量不足的时候，就会想到增加更多的硬件、设备来满足客户需求。但在海量数据汹涌来袭的时候，这种增加都是被动的、延迟的。据统计，互联网上的数据每两年翻一番，而目前世界上90%以上的数据都是最近几年才产生的，这为大数据概念的横空出世做好了准备。数据的增长超出了我们的预期，那么是否可以找到一个办法，让我们可以对业务部门提供一种“按需分配”的低成本方案呢？虚拟化技术以其降低成本、灵活性，以及动态的扩容特性，给出了最佳的答案。许多企业希望采用云计算和虚拟化技术实现“按需配置”的基础环境、服务等级，实现更低的成本和更高的盈利。然而，要从大数据这个藏量巨大的金矿中淘到金子，并没那么容易，传统架构下的IT运维管理与成熟的虚拟化技术并没有齐头并进。首先，虚拟机一旦出现故障，如果不能及时恢复，这个损失可能远远超过节省电源和空间的费用。其次，虚拟机的灵活性对IT运维中的“配置管理”可谓是一杯毒酒，泛滥的迁移和扩容会让IT基础设备重新回到混乱的过去。在传统数据中心，管理员可以确定地表述：我的数据库在服务器A上运行，这台服务器与交换机B进行连接并使用存储阵列C，它们的性能指标都非常良好。但动态数据中心采用虚拟化技术后，解耦了这种关系，更具伸缩性，或是随意的（人们对“灵活性”的误读）利用这些基础设施资源。业务系统可以位于服务器集群中的任何计算节点上，可以利用任何存储设备上的存储空间，可以使用虚拟网络，也可以进行转移以满足性能或运营需求。但这些优势，却在IT运维管理中造成“看不见”、“说不清”的严重问题。虚拟化运维管理的“两大难题”如何突破？如果你都不知道自己的IT环境里有什么，就别指望控制、维护和提高它们。因此，配置管理和性能监控在任何时候都没有变，它们只是进化到了更高的阶段。作为国内领先的IT运维管理专家，北塔软件认为：IT运维管理不是一蹴而就的，更不是一成不变的，大数据情形下的网络管理将要应对更多的技术和管理层面的挑战。之前，针对基础设施的监控一般侧重对物理设备、物理网络、物理存储的管理，而虚拟化后的变更操作变得越来越简单，但这会使得一些虚拟机脱离管理的范围，尤其是在配置管理和性能监控两个方面。管理人员需要对新增的虚拟网络、数据存储、虚拟机、ESX/ESXi主机数量、集群对象提供一种与之配套的IT运维管理工具。从改进配置管理开始着手是很重要的一步，因为这可以清晰地呈现出不断变化的虚拟机、物理服务器、存储和网络资源之间的关系。另外，随着每台物理机上托管的虚拟机数量增多并提高了整体利用率，性能测算与监控的重要性也在攀升。为了预防虚拟机密度过大，或者利用率不足的问题（虚拟化之后，这个问题并没有完全消除），运维管理人员必须拥随时调整物理主机的承载力。为了消除用户大数据时代的运维顾虑，在全面提供了对主机、网络、机房等领域的管理解决方案之后，北塔软件在北塔BTIM（BetasoftIntegratedManagement，IT综合管理软件）中增加了针对VMware虚拟化管理和FC-SAN存储管理解决方案。

IT运维管理面临的难题有哪些

IT运维标没有正式的强制性文件出台。

所谓 IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档等,对IT 如硬运行环境(软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。

企业将IT部门的职能全部或部分外包给专业的第三方IT外包公司管理，集中精力发展企业的核心业务。简单的说就是企业在内部专职IT运维人员不足或没有的情况下，将企业的IT外包服务流程，包括全部办公硬件、网络及外设的维护工作转交给专业从事IT运维的公司来进行全方位的维护。

当客户连不上公司网站时,作为运维工程师应该如何进行排查,提出较好的解决方法的思路

IT运维管理面临的难题有哪些

现在的北京IT外包市场内需极大且离岸外包需求也在不断扩展，北京IT外包执行额收入比重看似在增加,但北京IT外包行业存在的缺陷如果不想办法解决，这大好形势随时会被多变的市场反转。HR在接到需求之后——进行人才匹配——与软件工程师师进行项目相关沟通——想方设法压低工程师的期望薪资，从而获得高额利润。这样的流程过于繁琐导致人才匹配效率太低。

IT运维管理面临的难题有哪些

全国少有的对接北京IT外包服务和企业需求平台的互联网平台，他们发展快速，IT外包专业，服务态度好，拥有超前的发展眼光。他们之所以能在短时间内飞速发展，是因为看到了传统北京IT外包效率低的本质：缺乏平台。

一直以来，传统北京IT外包行业都缺乏一个信息发布的平台，没有平台，需求信息无法汇集，人才资源无法整合，效率难以提高。

互联网发展的脚步仍在加速，北京IT外包行业需要更多的创新才能满足多元化的企业需求，更快速的人才匹配才是软件外包行业的发展方向。海宇勇创只是一个开拓，互联网和大数据能创造价值的远不止这些，希望这样的新型北京IT外包企业越来越多，这样才能开创IT外包行业的新时代。

运维安全审计系统的相关厂商产品介绍

最快的办法，你先试试能不能连接公司网站，如果可以，那么直接就是客户的网络有问题，这样的话建议客户查找网络原因。

如果你也连不上，不好意思，可能你的服务宕了，或者网络出口交换机问题都有可能，一步一步查吧

如果你是一名运维工程师，建议平时做好网站的配置管理，以及问题库，这样的话出老问题有问题库支持，很便捷解决问题，如果是新问题，也可以通过配置管理迅速找到原因，完了给出解决办法，最后也可以把整个过程纳入问题库，这样的话你的运维工作肯定会越来越轻松，系统也会越来越稳定。

Linux运维工程师到底是怎样一种存在

目前，已经有相关多的厂商开始涉足这个领域，如：江南科友、绿盟、齐治、金万维、极地、北京普安思等，这些都是目前行业里做的专业且受到企业用户好评的厂商，但每家厂商的产品所关注的侧重又有所差别。

以金万维运维安全审计系统SSA为例，其产品更侧重于运维安全管理，它集单点登录、账号管理、身份认证、资源授权、访问控制和操作审计为一体的新一代运维安全审计产品，它能够对操作系统、网络设备、安全设备、数据库等操作过程进行有效的运维操作审计，使运维审计由事件审计提升为操作内容审计，通过系统平台的事前预防、事中控制和事后溯源来全面解决企业的运维安全问题，进而提高企业的IT运维管理水平。 1、SSA是什么——运维安全审计系统

SSA运维审计系统集单点登录、账号管理、身份认证、资源授权、访问控制和操作审计为一体的新一代运维安全审计产品，它能够对操作系统、网络设备、安全设备、数据库等操作过程进行有效的运维操作审计，使运维审计由事件审计提升为操作内容审计，通过系统平台的事前预防、事中控制和事后溯源来全面解决企业的运维安全问题，进而提高企业的IT运维管理水平

2、SSA系统功能

健全的用户管理机制和灵活的认证方式

为解决企业IT系统中普遍存在的因交叉运维而产生的无法定责的问题,SSA系统平台提出了“集中账号管理“的解决办法；集中帐号管理可以完成对帐号整个生命周期的监控和管理，而且还降低了企业管理大量用户帐号的难度和工作量，同时，通过统一的管理还能够发现帐号使用中存在的安全隐患，并且制定统一、标准的用户帐号安全策略。针对平台中创建的运维用户可以支持静态口令、动态口令、数字证书等多种认证方式；支持密码强度、密码有效期、口令尝试死锁、用户激活等安全管理功能；支持用户分组管理;支持用户信息导入导出，方便批量处理。

细粒度、灵活的授权

系统提供基于用户、运维协议、目标主机、运维时间段（年、月、日、周、时间）等组合的授权功能，实现细粒度授权功能，满足用户实际授权的需求。授权可基于：用户到资源、用户组到资源、用户到资源组、用户组到资源组。

单点登录功能是运维人员通过SSA系统认证和授权后，系统根据配置策略实现后台资源的自动登录。保证运维人员到后台资源帐号的一种可控对应，同时实现了对后台资源帐号的口令统一保护与管理。系统提供运维用户自动登录后台资源的功能。SSA能够自动获取后台资源帐号信息并根据口令安全策略，定期自动修改后台资源帐号口令；根据管理员配置，实现运维用户与后台资源帐号相对应，限制帐号的越权使用；运维用户通过SSA认证和授权后，SSA根据分配的帐号实现自动登录后台资源。

实时监控

监控正在运维的会话：信息包括运维用户、运维客户端地址、资源地址、协议、开始时间等；监控后台资源被访问情况，提供在线运维操作的实时监控功能。针对命令交互性协议，可以实时监控正在运维的各种操作，其信息与运维客户端所见完全一致。

违规操作实时告警与阻断

针对运维过程中可能存在的潜在操作风险，SSA根据用户配置的安全策略实施运维过程中的违规操作检测，对违规操作提供实时告警和阻断，从而达到降低操作风险及提高安全管理与控制的能力。对于非字符型协议的操作能够实时阻断。

字符型协议的操作可以通过用户配置的命令行规则进行规则匹配，实现告警与阻断。告警动作支持权限提升、会话阻断、邮件告警、短信告警等。对常见协议能够记录完整的会话过程

SSA系统平台能够对常见的运维协议如SSH/FTP/Telnet/SFTP /Http/Https/RDP/X11/VNC等会话过程进行完整的记录，以满足日后审计的需求；审计结果可以录像和日志两种方式呈现，录像信息包括运维用户名称、目标资源名称、客户端IP、客户端计算机名称、协议名、运维开始时间、结束时间、运维时长等信息

详尽的会话审计与回放

运维人员操作录像以会话为单位，能够对用户名、日期和内容进行单项定位查询和组合式定位查询。组合式查询可按照运维用户、运维地址、后台资源地址、协议、起始时间、结束时间和操作内容中关键字等组合方式进行；针对命令字符串方式的协议，提供逐条命令及相关操作结果的显示：提供图像形式的回放，真实、直观、可视地重现当时的操作过程；回放提供快放、慢放、拖拉等方式，针对检索的键盘输入的关键字能够直接定位回放；针对RDP、X11、VNC协议，提供按时间进行定位回放的功能。

丰富的审计报表功能

SSA系统平台能够对运维人员的日常操作、会话以及管理员对审计平台的操作配置、运维报警次数等进行报表统计分析。报表包括：日常报表、会话报表、自审计操作报表、告警报表、综合统计报表,并可根据个性需求设计和展现自定义报表。以上报表可以EXCEL格式输出，并且可以以折线、柱状、圆饼图等图形方式展现出来。

应用发布

针对用户的运维需求，SSA推出了业界首创的虚拟桌面主机安全操作系统设备(ESL，E-SoonLink)，通过ESL配合SSA进行审计能够完全达到审计、控制、授权的要求，配合TSA产品,可实现对数据库维护工具、pcAnywhere、DameWare等不同工具的运维操作进行监控和审计。科友运维安全审计系统（HAC）着眼于解决关键IT基础设施运维安全问题。它能够对Unix和Windows主机、服务器以及网络、安全设备上的数据访问进行安全、有效的操作审计，支持实时监控和事后回放。

HAC补了传统审计系统的不足，将运维审计由事件审计提升为内容审计，集身份认证、授权、审计为一体，有效地实现了事前预防、事中控制和事后审计。

审计要求

针对安然、世通等财务欺诈事件，2002年出台的《公众公司会计改革和投资者保护法案》（Sarbanes-Oxley Act）对组织治理、财务会计、监管审计制定了新的准则，并要求组织治理核心如董事会、高层管理、内外部审计在评估和报告组织内部控制的有效性和充分性中发挥关键作用。与此同时，国内相关职能部门亦在内部控制与风险管理方面制定了相应的指引和规范。由于信息系统的脆弱性、技术的复杂性、操作的人为因素，在设计以预防、减少或消除潜在风险为目标的安全架构时，引入运维管理与操作监控机制以预防、发现错误或违规事件，对IT风险进行事前防范、事中控制、事后监督和纠正的组合管理是十分必要的。

IT系统审计是控制内部风险的一个重要手段，但IT系统构成复杂，操作人员众多，如何有效地对其进行审计，是长期困扰各组织的信息科技和风险稽核部门的一个重大课题。

解决之道

江南科友因市场对IT运维审计的需求，集其多年信息安全领域运维管理与安全服务的经验，结合行业最佳实践与合规性要求，率先推出基于硬件平台的“运维安全审计系统（HAC）”，针对核心资产的

运维管理，再现关键行为轨迹，探索操作意图，集全局实时监控与敏感过程回放等功能特点，有效解决了信息化监管中的一个关键问题。

系统功能

完整的身份管理和认证

为了确保合法用户才能访问其拥有权限的后台资源，解决IT系统中普遍存在的交叉运维而无法定位到具体人的问题，满足审计系统“谁做的”要求，系统提供一套完整的身份管理和认证功能。支持静态口令、动态口令、LDAP、AD域证书KEY等认证方式；

灵活、细粒度的授权

系统提供基于用户、运维协议、目标主机、运维时间段（年、月、日、周、时间）、会话时长、运维客户端IP等组合的授权功能，实现细粒度授权功能，满足用户实际授权的需求。

后台资源自动登陆

后台资源自动登陆功能是运维人员通过HAC认证和授权后，HAC根据配置策略实现后台资源的自动登录。此功能提供了运维人员到后台资源帐户的一种可控对应，同时实现了对后台资源帐户的口令统一保护。

实时监控

提供在线运维的操作的实时监控功能。针对命令交互性协议可以图像方式实时监控正在运维的各种操作，其信息与运维客户端所见完全一致。

违规操作实时告警与阻断

针对运维过程中可能存在潜在操作风险，HAC根据用户配置的安全策略实施运维过程中的违规操作检测，对违规操作提供实时告警和阻断，从而达到降低操作风险及提高安全管理与控制的能力。

完整记录网络会话过程

系统提供运维协议Telnet、FTP、SSH、SFTP、RDP（Windows Terminal）、Xwindows、VNC、AS400等网络会话的完整会话记录，完全满足内容审计中信息百分百不丢失的要求。

详尽的会话审计与回放

HAC提供视频回放的审计界面，以真实、直观、可视的方式重现操作过程。

完备的审计报表功能

HAC提供运维人员操作，管理员操作以及违规事件等多种审计报表。

各类应用运维操作审计功能

HAC提供对各类应用的运维操作审计功能，能够提供完整的运维安全审计解决方案。可依据用户要求快速实现新应用的发布和审计。

结合ITSM（IT服务管理）

HAC可与ITSM相结合，可为其优化变更管理流程，加强对变更管理中的风险控制

系统特点

支持加密运维协议的审计

领先地解决了SSH、RDP等加密协议的审计，满足用户Unix和Windows环境的运维审计要求。

分权管理机制

系统提供设备管理员、运维管理员和审计员三种管理角色，从技术上保证系统管理安全。

更加严格的审计管理

系统将认证、授权和审计有机地集成为一体，有效地实现了事前预防、事中控制和事后审计。

部署灵活、操作方便

系统支持单臂、串联部署模式；支持基于B/S方式的管理、配置和审计。

系统安全设计

精简的内核和优化的TCP/IP协议栈

基于内核态的处理引擎

双机热备

严格的安全访问控制

基于HTTPS的安全访问管理、配置和审计

审计信息加密存储

完善的审计信息备份与恢复机制

系统部署

鉴于企业网络及管理架构的复杂性，HAC系统提供了灵活的部署方式，既可以采取串连模式，也可以采用单臂模式接入到企业内部网络中。采用串连模式部署时，HAC具备一定程度上的网络控制的功能，可提高核心服务器访问的安全性；采用单臂模式部署时，不改变网络拓扑，安装调试过程简单，可按照企业网络架构的实际情况灵活接入。

无论串连模式还是在单臂模式，通过HAC访问IT基础服务资源的操作都将被详细的记录和存储下来，作为审计的基础数据。HAC的部署不会对业务系统、网络中的数据流向、带宽等重要指标产生负面影响，无需在核心服务器或操作客户端上安装任何软硬件系统。

认证资质

“运维安全审计系统（HAC）”已获公安部颁发的《计算机信息系统安全专用产品销售许可证》，已通过国家保密局涉密信息系统安全保密评测中心检测，取得涉密信息系统产品检测证书。通过国家信息安全测评取得信息技术产品安全测评证书。

运维中关键技术点解剖：1 大量高并发网站的设计方案；2 高可靠、高可伸缩性网络架构设计；3 网站安全问题，如何避免被黑？4 南北互联问题,动态CDN解决方案；5 海量数据存储架构

一、什么是大型网站运维？

首先明确一下，全文所讲的”运维“是指：大型网站运维，与其它运维的区别还是蛮大的；然后我们再对大型网站与小型网站进行范围定义，此定义主要从运维复杂性角度考虑，如网站规范、知名度、服务器量级、pv量等考虑，其它因素不是重点；因此，我们先定义服务器规模大于1000台，pv每天至少上亿（至少国内排名前10），如sina、baidu、 QQ，等等；其它小型网站可能没有真正意义上的运维工程师，这与网站规范不够和成本因素有关，更多的是集合网络、系统、开发工作于一身的“复合性人才”，就如有些公司把一些合同采购都纳入了运维职责范围，还有如IDC网络规划也纳入运维职责。所以，非常重要一定需要明白：运维对其它关联工种必须非常了解熟悉：网络、系统、系统开发、存储，安全,DB等；我在这里所讲的运维工程师就是指专职运维工程师。

我们再来说说一般产品的“出生”流程：

1、首先公司管理层给出指导思想，PM定位市场需求（或copy成熟应用）进行调研、分析、最终给出详细设计。

2、架构师根据产品设计的需求，如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等（基本上对网络变动不大，除非大项目）

3、开发工程师将设计code实现出来、测试工程师对应用进行测试。

4、好，到运维工程师出马了，首先明确一点不是说前三步就与运维工作无关了，恰恰相反，前三步与运维关系很大：应用的前期架构设计、软/硬件资源评估申请采购、应用设计性能隐患及评估、IDC、服务性能\安全调优、服务器系统级优化（与特定应用有关）等都需运维全程参与，并主导整个应用上线项目；运维工程师负责产品服务器上架准备工作，服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责，并负责最后将产品（程序）、网络、系统三者进行拼接并最优化的组合在一起，最终完成产品上线提供用户使用，并周而复使：需求->开发（升级）->测试->上线（性能、安全问题等之前预估外的问题随之慢慢就全出来了）在这里提一点：网站开发模式与传统软件开发完全不一样，网站一天开发上线1~5个升级版本是家常便饭，用户体验为王嘛，如果某个线上问题像M$ 需要1年解决，用户早跑光了；应用上线后，运维工作才刚开始，具体工作可能包括：升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作：

a 、尽量将日常机械性手工工作通过工具实现（如服务监控、应用状态统计、服务上线等等），提高效率。

b、解决现实中服务存在的问题，如高可靠性、可扩展性问题等。

c、大规模集群管理工具的开发，如1万台机器如何在1分钟内完成密码修改、或运行指定任务？2000台服务器如何快速安装操作系统？各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析？等一系列挑战都需运维工程师的努力。

在此说明一下其它配合工种情况，在整个项目中，前端应用对于网络/系统工程师来说是黑匣子，同时开发工程师职责只是负责完成应用的功能性开发，并对应用本身性能、安全性等应用本身负责，它不负责或关心网络/系统架构方面事宜，当然软/硬件采购人员等事业部其它同事也不会关心这些问题，各司其职，但项目的核心是运维工程师~！所有其它部门的桥梁。

上面说了很多，我想大家应该对运维有一些概念了，在此打个比方吧，如果我们是一辆高速行驶在高速公路上的汽车，那运维工程师就是司机兼维修工，这个司机不简单，有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快，汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决汽车故障及性能问题、时刻关注前方安全问题，并先知先觉的采取规避手段。这就是运维工作~！

最后说一下运维工程师的职责：”确保线上稳定“，看似简单，但实属不容易，运维工程师必须在诸多不利因素中进行权衡：新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素，都会是网站稳定的大敌，运维工程师必须把控好这最后一关，需具体高度的责任感、原则性及协调能力，如果能做到各因素的最佳平衡，那就是一名优秀的运维工程师了。

另外在此聊点题外话，我在这里看到有很多人要sina、QQ、baidu,等聊自已的运维方面的经验，其实这对于它们有点免为其难：

a、各公司自已网络架构、规模、或多或少还算是公司的核心秘密，要保密，另外，对于大家所熟知的通用软件、架构，由于很多公司会根据自已实际业务需要，同时因为原版性能、安全性、已知bug、功能等原因，进行过二次开发（如apache,php,mysql ），操作系统内核也会根据不同业务类型进行定制的，如某些应用属于运算型、某些是高IO型、或大存储大内存型。根据这些特点进行内核优化定制，如sina就在 memcache上进行过二次开发，搞出了一个MemcacheDB，具体做得如何我们不谈，但开源了，是值得称赞的，国内公司对于开源基本上是索取，没有贡献；另外，服务器也不是大家所熟知的型号，根据业务特点，大部份都是找DELL/HP/ibm进行过定制；另外，在分布式储存方面都有自已解决方案，要不就是使用现成开源hadoop等解决方案，或自已开发。但90%都是借鉴google GFS的思想:分布式存储、计算、大表。

b、各公司业务方向不一样，会导致运维模式或方法都不一样，如和baidu运维肯定区别很大，因为他们业务模式决定了其架构、服务器量级、 IDC分布、网络结构、通用技术都会不一样，主打新闻门户的sina与主打sns的运维模式差异就非常大,甚至职责都不大一样；但有一点，通用技术及大致架构上都大同小异，大家不要太神化，更多的公司只是玩垒积木的游戏罢了，没什么技术含量。

c、如上面所讲，目前大型网站运维还处于幼年时期理念和经验都比较零散，没有成熟的知识体系，可能具体什么是运维，大家都要先思索一番，或压根没想过，真正讨论也只是运维工作的冰山一角，局限于具体技术细节，或某某著名网站大的框架，真正运维体系化东西没有，这也许是目前网上运维相关资料比较少的原故吧。或者也是国内运维人员比较难招，比较牛的运维工程师比较少见的原因之一吧。

二、运维工作师需要什么样的技能及素质

做为一名运维工程师需要什么样的技能及素质呢，首先说说技能吧，如大家上面所看到，运维是一个集多IT工种技能与一身的岗位，对系统->网络 ->存储->协议->需求->开发->测试->安全等各环节都需要了解一些，但对于某些环节需熟悉甚至精通，如系统 (基本操作系统的熟悉使用,*nix,windows ..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理）、通用应用（如lvs、ha、web server 、db、中间件、存储等）、网络,IDC拓朴架构；

技能方面总结以下几点：

1、开发能力，这点非常重要，因为运维工具都需要自已开发，开发语言：perl、python、php（其中之一）、shell（awk,sed,expect….等），需要有过实际项目开发经验，否则工作会非常痛苦。

2、通用应用方面需要了解：操作系统（目前国内主要是linux、bsd）、webserver相关 (nginx,apahe,php,lighttpd,java。。。)、数据库(mysql,oralce)、其它杂七八拉的东东；系统优化，高可靠性；这些只是加分项，不需必备，可以边工作边慢慢学，这些东西都不难。当然在运维中，有些是有分工偏重点不一样。

3、系统、网络、安全，存储，CDN，DB等需要相当了解，知道其相关原理。

个人素质方面：

1、沟通能力、团队协作：运维工作跨部门、跨工种工作很多，需善于沟通、并且团队协作能力要强；这应该是现代企业的基本素质要求了，不多说。

2、工作中需胆大心细：胆大才能创新、不走寻常路，特别对于运维这种新的工种，更需创新才能促进发展；心细，运维工程师是网站admin,最高线上权限者，一不小心就会遗憾终生或打入十八层地狱。

3、主动性、执行力、精力旺盛、抗压能力强：由于IT行业的特性，变化快；往往计划赶不上变化，运维工作就更突出了，比如国内各大公司服务器往往是全国各地，哪里便宜性价比高，就那往搬，进行大规模服务迁移（牵扯的服务器成百上千台），这是一个非常头痛的问题；往往时间非常紧迫，如限1周内完成，这种情况下，运维工程师的主动性及执行力就有很高的要求了：计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

4、其它就是一些基本素质了：头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

5、最后一点，做网站运维需要有探索创新精神，通过创新型思维解决现实中的问题，因为这是一个处于幼年的职业（国外也一样，但比国内起步早点），没有成熟体系或方法论可以借鉴，只能靠大家自已摸索努力。

三、怎样才算是一个合格的运维工程师

1、保证服务达到要求的线上标准，如99.9%；保证线上稳定，这是运维工程师的基本责职所在。

2、不断的提升应用的可靠性与健壮性、性能优化、安全提升；这方面非常考验主动性和创新思维。

3、网站各层面监控、统计的覆盖度，软件、硬件、运行状态，能监控的都需要监控统计，避免监控死角、并能实时了解应用的运转情况。

4、通过创新思维解决运维效率问题；目前各公司大部份运维主要工作还是依赖人工操作干预，需要尽可能的解放双手。

5、运维知识的积累与沉淀、文档的完备性，运维是一个经验性非常强的岗位，好的经验与陷阱都需积累下来，避免重复性范错。

6、计划性和执行力；工作有计划，计划后想法设法达到目标，不找借口。

7、自动化运维；能对日常机械化工作进行提炼、设计并开发成工具、系统，能让系统自动完成的尽量依靠系统；让大家更多的时间用于思考、创新思维、做自已喜欢的事情。

以上只是技术上的一些层面，当然个人意识也是很重要的。

四、运维职业的迷惘、现状与发展前景

运维岗位不像其它岗位，如研发工程师、测试工程师等，有非常明确的职责定位及职业规划，比较有职业认同感与成就感；而运维工作可能给人的感觉是哪方面都了解一些，但又都比上专职工程师更精通、感觉平时被关注度比较低（除非线上出现故障），慢慢的大家就会迷惘，对职业发展产生困惑,为什么会有这种现象呢？除了职业本身特点外，主要还是因为对运维了解不深入、做得不深入导致；其实这个问题其它岗位也会出现，但我发现运维更典型，更容易出现这个问题；

针对这个问题我谈一下网站运维的现状及发展前景（也在思考中，可能不太深入全面，也请大家斧正补充）

运维现状：

1、处于刚起步的初级阶段，各大公司有此专职，但重视或重要程度不高，可替代性强；小公司更多是由其它岗位来兼顾做这一块工作，没有专职，也不可能做得深入。

2、技术层次比较低；主要处于技术探索、积累阶段，没有型成体系化的理念、技术。

3、体力劳动偏大；这个问题主要与第二点有关系，很多事情还是依靠人力进行，没有完成好的提练，对于大规模集群没有成熟的自动化管理方法，在此说明一下，大规模集群与运维工作是息息相关的如果只是百十来台机器，那就没有运维太大的生存空间了。

4、优秀运维人才的极度缺乏；目前各大公司基本上都靠自已培养，这个现状导致行业内运维人才的流动性非常低，非常多好的技术都局限在各大公司内部，如 google 50万台机器科学的管理,或者国内互联公司top 10 的一些运维经验，这些经验是非常有价值的东西并决定了一个公司的核心竞争力；这些问题进而导致业内先进运维技术的流通、贯通、与借签，并最终将限制了运维发展。

5、很多优秀的运维经验都掌握在大公司手中；这不在于公司的技术实力，而在于大公司的技术规模、海量PV、硬件规模足够大，如baidu可怕的流量、海量数据~~~~这些因素决定了他们遇到的问题都是其它中/小公司还没有遇到的，或即将遇到。但大公司可能已有很好的解决方案或系统。

发展前景：

1、从行业角度来看，随着中国互联网的高速发展（目前中国网民已跃升为全球第一）、网站规模越来越来大、架构越来越复杂；对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大，而且是越老越值钱；目前国内基本上都是选择毕业生培养（限于大公司），培养成本高，而且没有经验人才加入会导致公司技术更新缓慢、影响公司的技术发展；当然，毕业生也有好处：白纸一张，可塑性强，比较认同并容易融入企业文化。

2、从个人角度，运维工程师技术含量及要求会越来越高，同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

3、网站运维将成为一个融合多学科（网络、系统、开发、安全、应用架构、存储等）的综合性技术岗位，给大家提供一个很好的个人能力与技术广度的发展空间。

4、运维工作的相关经验将会变得非常重要，而且也将成为个人的核心竞争力，具备很好的各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发挥和兴趣的培养；由于运维岗位所接触的知识面非常广阔，更容易培养或发挥出个人某些方面的特长或爱好，如内核、网络、开发、数据库等方面，可以做得非常深入精通、成为这方面的专家。

6、如果真要以后不想做运维了，转到其它岗位也比较容易，不会有太大的局限性。当然了，你得真正用心去做。

7、技术发展方向：网站/系统架构师。

五、运维关键技术点解剖

1、大规模集群管理问题

首先我们先要明确集群的概念，集群不是泛指各功能服务器的总合，而是指为了达到某一目的或功能的服务器、硬盘资源的整合（机器数大于两台），对于应用来说它就是一个整体，目前常规集群可分为：高可用性集群（HA），负载均衡集群（如lvs），分布式储、计算存储集群（DFS，如google gfs ,yahoo hadoop），特定应用集群（某一特定功能服务器组合、如db、cache层等），目前互联网行业主要基于这四种类型；对于前两种类似，如果业务简单、应用上post操作比较少，可以简单的采用四层交换机解决（如f5），达到服务高可用/负责均衡的作用，对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活；对于后两种，那就考验公司技术实力及应用特点了，第三种DFS主要应用于海量数据应用上，如邮件、搜索等应用，特别是搜索要求就更高了，除了简单海量存储，还包括数据挖掘、用户行为分析；如 google、yahoo就能保存分析近一年的用户记录数据，而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至关重要的。

接下来，我们再谈谈如何科学的管理集群，有以下关键几点：

I、监控

主要包括故障监控和性能、流量、负载等状态监控，这些监控关系到集群的健康运行，及潜在问题的及时发现与干预；

a、服务故障、状态监控：主要是对服务器自身、上层应用、关联服务数据交互监控；例如针对前端web server，我们就可以有很多种类型的监控，包括应用端口状态监控，便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态，更上层可能还包括应用各频道业务的监控，常用方法是采用面业特征码进行判断，或对重点页面进行签名，以网站被黑篡改（报警、并自动恢复被篡改数据）等等，这些只是一部份，还有N多监控方式，依应用特点而定，还有一些问题需解决，如集群过大，如何高性能的进行监控也是一个现实问题。

b、其它就是集群状态类的监控或统计，为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。

II、故障管理

a、硬件故障问题；对于成百上千或上万机器的N多集群，服务器死机、硬件故障概率是非常大的，几乎每时每刻都有服务硬件问题，死机、硬盘损坏、电源、内存、交换机。针对这种情况，我们在设计网站架构时需要充分考虑到这些问题，并将其视为常态；更多的依靠应用的冗余机制来规避这种风险，但给系统工程师足够宽裕的处理时间。（如google不是号称同时死800台机器，服务不会受到任何影响吗）；这就是考验运维工程师及网站架构师功能的地方了，好的设计能达到google所描述自恢复能力，如gfs，糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映，直接对用户拒绝响应。

b、应用故障问题；可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定，但重要的一点，是要有对这些问题的预防性措施，不能想当然，它不会出问题，如真出问题了，如何应对？这需要运维工程师平时做足功夫，包括应急响应速度、故障处理的科学性、备用方案的有效等。

III、自动化

自动化：简而言之，就是将我们日常手动进行的一些工作通过工具，系统自动来完成，解放我们的双手及枯燥的重复性劳动，例如：没有工具前，我们安装系统需要一台一台裸机安装，如2000台，可能需要10人/10天，搞烂N张光盘，人力成本更大。。。而现在通过自动化工具，只需几个简单命令就能搞定、还有如机器人类程序，自动完成以往每天人工干预的工作，使其自动完成、汇报结果，并具备一定的专家系统能力，能做一些简单的是/非判断、优化选择等。。。这些好处非常明显不再多说。。。应该说，自动化运维是运维工程师职业化的一个追求，利已利公，虽然这是一个异常艰巨的任务：不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素，都可能会对现有自动化系统产生影响，所以需要模块化、接口化、变因参数化等因此，自动化相关工作，是运维工程师的核心重点工作之一，也是价值的体现。