1.
准备阶段:定义目标与团队分工
- 明确勘查目的(新建/验收/例行巡检/整改验证)。
- 组建团队:项目负责人、机房工程师(电力/冷却)、网络工程师、安全合规专员、现场记录员。
- 准备文件:机房平面图、设备清单(机柜、UPS、发电机、BA/CRAC)、电力单线图、之前的巡检报告、合规标准(例如NCC、TWN本地规范或客户SLA)。
2.
工具与安全防护准备
- 工具清单:红外测温枪、回路测试仪、绝缘表、风速计、温湿度计、声压计、网络测试仪(光纤/铜缆)、手电、标签机、相序表、笔记本与相机。
- PPE与通行:安全帽、安全鞋、绝缘手套、防静电衣、门禁证件,确认现场安全通道与应急出口。
- 预约与进场:提前联系IDC现场管理员或保全,确认可访问区域与时间窗,携带必要证明文件。
3.
到场首检:外部与周边环境评估
- 外围安全:检查围墙、门禁、监控覆盖、灯光、入侵报警是否完整。
- 周边风险:附近施工、易燃物存放、积水或淹水风险、台风/地震历史记录。
- 通行与车辆:货物卸载区、应急车辆通道是否畅通。
4.
现场布置核对:机房平面与设备位置
- 核对平面图与实际布局,确认机柜编号、空置位、冷通道/热通道分隔。
- 标注应急出口、巡检路线、消防栓、烟感位置及电缆井口。
- 检查地板承载、机柜固定与接地标识是否符合规范。
5.
电力系统检查:UPS、供电与接地
- UPS:记录型号、容量、负载率、旁路状态与电池健康(充放电记录、内阻测试/电压一致性)。
- 配电:核对市电输入、A/B回路独立性、相序正确性、断路器与接线是否有发热痕迹。用红外测温枪扫查接线端子。
- 发电机与切换:测试自动切换(在允许的维护窗),检查燃油、冷却液与起动电池。
- 接地:用接地电阻表测量机房主接地、机柜接地与设备接地,确保低于设计阈值(如<5Ω,按当地规范)。
6.
冷却与环境控制:CRAC/空调系统检查
- 温湿度:在机房多点测量并记录(入口/出口/顶/底部),确认与规定(如24±2°C,湿度40-60%)一致。
- 空调设备:检查CRAC/CRAH运行模式、冷却水循环、冷凝排水、旁路阀与机房风道是否畅通;用风速计测量面风速与送风温差。
- 冗余与告警:确认N+1或2N配置、温度/水浸告警联动且能通知运维。
7.
消防与灭火系统检查
- 探测系统:确认烟感、温感布局完整性并进行功能测试(模拟报警)。
- 灭火系统:检查气体灭火(如IG-541、Novec)或喷淋系统的气瓶压力、释放路径与联动策略,确保无阻挡。
- 演练与记录:查阅近年演练记录与维护合同,确认检测与补充在有效期内。
8.
网络与布线检查
- 物理布线:核实光纤与铜缆标签、整理与走线托盘是否规范;检查光纤端面清洁度与损耗。
- 核实机柜内设备上行/下行链路、冗余链路是否按设计连接(A/B独立)。
- 网络设备:检查核心交换机、路由器是否有冗余电源、端口状态、风扇与温度告警记录。
9.
物理安防与监控系统
- 门禁:检查生物识别/卡片系统记录、异常开门告警历史、门磁与电控锁功能。
- 视频监控:核对摄像头覆盖盲区,抽查录像回放完整性与存储周期。
- 巡检制度:核查访问日志、外来人员登记流程与钥匙管理制度。
10.
环境与电磁风险检测
- 水浸检测:检查排水坡度、地漏、地下室防潮层与水浸探测器。
- 电磁干扰:对重要设备附近检查强电器件或无线设备是否会造成干扰,必要时做电磁场强度测量。
- 危害物质:确认现场无易燃液体、未授权焊接或热作业记录。
11.
合规性文件与运维制度核验
- 文件清单:审查机房资质、消防合格证、设备维保合同、SLA与应急响应流程。
- 程序与权限:检查变更管理、借用机柜、远程运维访问审批流程与多因素认证措施。
- 人员培训:查看运维记录、应急演练记录与岗位培训证明。
12.
测试与验证:实际演练与数据记录
- 功能测试:进行一次受控的断电切换测试(UPS->发电机),验证监控告警、负载承受和恢复时间。
- 数据记录:对温度、电流、电压、网络吞吐、录像可用性等做时间戳记录以供后续比对。
- 风险标注:对发现的问题按严重程度标注(紧急/高/中/低),并指定负责单位与整改时限。
13.
整改建议与报告编写
- 报告结构:封面、执行摘要、现场发现、照片与测量数据、风险等级、建议措施、整改计划与责任人。
- 提交与确认:将报告发送给客户与现场管理员,召开评审会议确认整改优先级与时间窗。
- 跟踪验证:整改完成后安排复查,必要时拍照并记录复测数据,形成闭环。
14.
保留证据与长期监控建议
- 证据保存:所有照片、测试表、仪器校准证书与日志保存至少1年或按客户要求。
- 自动化监控:建议部署集中监控平台(温湿度/烟感/门禁/UPS状态),并配置短信/邮件/工单联动。
- 周期性检查:建议例行月检、季检与年度全面审计,并在台风/地震季节前进行专项检查。
15.
问:金门IDC现场勘查首要关注哪些本地特性?
- 回答提示:关注台风、潮湿与盐雾影响;沿海环境对设备防腐、防潮、空调负荷的额外需求;并确认本地供电稳定性与应急发电方案。
16.
答:如何在有限时间内优先处理发现的安全隐患?
- 建议做法:按影响范围与发生概率评估风险,优先处理会导致服务中断或火灾的隐患(如发热接线、无灭火联动、UPS异常),并在现场临时加固(拉警戒线、开启旁路、调用备机)。
17.
问:完成勘查后如何保证整改有效性与合规长期维持?
- 回答要点:实施整改后进行复测并形成闭环记录;建立定期巡检与自动告警体系;制定变更管理与培训计划,确保人员、流程与技术三方面同时到位。
来源:如何开展台湾金门IDC机房现场勘查与安全合规检查