您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页SCADA系统信息安全常见故障处理方法

SCADA系统信息安全常见故障处理方法

来源:保捱科技网
附件5 SCADA系统信息安全常见故障处理方法

附件5 SCADA系统信息安全常见故障处理方法

1、 PLC通讯中断 ................................................. - 2 - 2、 站控机中毒导致工程运行不正常或不能启动 ....................... - 3 - 3、 站控数据不更新 ............................................... - 6 - 4、 第三方设备通讯故障 ........................................... - 8 - 5、 RCI自动停机 ................................................ - 10 - 6、 由于RCI需要轮询点数过多导致的故障 .......................... - 12 - 7、 阀室数据上传故障 ............................................ - 14 - 8、 甪直站调压橇压变PT5802传输数据错误的故障处理 ............... - 17 - 9、 压气站HIMA ERROR故障分析和处理报告 ......................... - 19 - 10、 控制网组网不正常 ........................................... - 43 - 11、 ANYBUS COMMUNICATOR与ESD系统通讯中断 ...................... - 46 - 12、 I/O模块通讯故障 ............................................ - 48 - 13、 AB PLC系统ETHERNET冗余网络通讯A网失败后B网不能工作 ...... - 49 - 14、 北调无法看到ESD系统中的模拟量 ............................. - 54 - 15、 通讯服务器冗余配置失败 ..................................... - 55 - 16、 配置路由器时在配置界面上出现乱码 ........................... - 60 - 17、 DDN通讯中断 ............................................... - 61 - 18、 站场与北调的通讯频繁闪断 ................................... - 62 - 19、 路由器用户名、密码失败,无法登录及配置 ..................... - 62 - 20、 第三方设备与上位机通讯无法建立或通讯不正常 ................. - - 21、 机柜间到站控室的1#光纤不通 ................................. - 70 - 22、 HIRSCHMANN交换机IP地址设置 ................................ - 72 - 23、 交换机及路由器对应端口通讯方式配置 ......................... - 78 - 24、 洛阳分输站与北京中心通讯中断 ........................... - 84 -

- 1 -

附件5 SCADA系统信息安全常见故障处理方法

1、 PLC通讯中断

1、故障现象

站控机中有“PLC通讯中断”报警,且相应的NOE模块会显示“Fault”红灯亮。 2、故障原因

NOE以太网模块网络地址配置错误,造成PLC通信不能实现冗余,主备切换后无法实现PLC与RCI间的通讯。比如说济南站的主备两个NOE模块的IP按照IP点表上应该是172.17.62.65(主)和172.17.62.67(备),另有172.17.62.68这个IP是预留未使用的,如果错吧172.17.62.67配制成172.17.62.68,由于RCI识别的NOE模块IP是172.17.62.67而非172.17.62.68,就会造成主备切换时,PLC与RCI通讯不上而出现通讯故障报警,该报警将显示在站控机界面上。 3、解决方法

(1)首先确认PLC、交换机、RCI间各网线接口没有虚接或掉落的。 (2)对照IP表,试着ping PLC两个NOE以太网模块的IP地址,哪个地址ping不同,就说明哪个模块有问题。可以通过上次备份的PLC工程查找到NOE的网络设置,如图8.1.3和图8.1.4的操作步骤即可看到。可以对各NOE模块的网络进行设置,即“Internet Address”、“Subnet Mask”和“Gateway”。

- 2 -

附件5 SCADA系统信息安全常见故障处理方法

(3)在笔记本上打开Concept软件,打开原先备份好的工程,可以通过网线或串口线连接PLC(如果两个NOE模块的地址实在找不到的话),按照(2)中的方法重新设置好网络后,重新下载程序到PLC的控制器中。

(4)断开笔记本电脑与PLC的链接,对PLC的备机进行热备设置。将备机

CHS热备模块的钥匙开关拨到“Xfer”挡,按下程序更新按钮,然后

松开按钮,会看到备机架的CHS模块显示“Standby”橙色灯亮,当该灯常亮以后则表示热备完成,这时备机架CPU模块的“Run”绿灯将变亮,主机架CHS模块的“Primary”绿灯常亮。

(5)PLC与RCI的通讯恢复以后,站控机电脑屏幕上“PLC通讯中断”报警可以确认掉。

2、 站控机中毒导致工程运行不正常或不能启动

1、故障现象

站控机工程运行不正常或不能启动。

- 3 -

附件5 SCADA系统信息安全常见故障处理方法

2、故障原因

站控机外接移动存储设备而中毒,病毒影响Viewstar软件的正常使用。 3、解决办法

采用瑞星杀毒软件、病毒专杀工具(如Worm.LovGate爱情后门专杀)对站控机进行杀毒。

(1)图8.2.1为靖边站在用瑞星对站控机进行查杀后的情况,图中可见病毒名称都为Backdoor.SdBot.wgb,一种集后门、蠕虫功能于一体的,通过网络共享和操作系统漏洞进行传播的病毒。病毒会尝试通过弱密码登陆目标系统,还会在感染的电脑上打开后门接收攻击者发出的指令,然后连接特定的IRC服务器通知攻击者病毒的存在。病毒会扫描网段内的机器并猜测共享密码,占用大量网络带宽资源,容易造成局域网阻塞。它通过IRC服务器接受攻击者发出的指令,例如安装/卸载后门、下载并运行文件、结束进程、运行代理服务器、盗取流行游戏的账号、对指定的IP进行DOS(拒绝服务)攻击等。

(2)2009年12月16日,红柳站站控机工程无法启动,每次启动后提示“LSASS.EXE出错,系统将在60秒内自动关闭!”,然后在指定的时间内自动重启。然后维护人员在安全模式下用瑞星对站控机进行病毒查杀,杀出了大量的“packer.main007”木马。查杀结束后重启站控机和工程,Viewstar运行恢复正常。

- 4 -

附件5 SCADA系统信息安全常见故障处理方法

由SYSTEM执行的lsass.exe是“无害”的系统进程,用于微软Windows系统的安全机制,本地安全和登陆策略。但是假如在站控机的任务管理器中同时看到lsass.exe和LSASS.EXE这两个进程,则表明站控机已经中了Windang.worm、irc.ratsou.b、Webus.B、MyDoom.L、Randex.AR、Nimos.worm病毒,或者是该病毒的变种。LSASS.EXE在任务管理器中显示为当前用户在执行,而非SYSTEM在执行,该病毒通过软盘、群发邮件和P2P文件共享进行传播。解决办法如下:

(a)使用prockiller进程杀手终止LSASS.EXE进程; (b)删除病毒文件(有的文件可能没有):  C:/Program Files/Common Files/INTEXPLORE.pif  C:/Program Files/Internet Explorer/INTEXPLORE.com  C:/WINDOWS/EXERT.exe  C:/WINDOWS/IO.SYS.BAK  C:/WINDOWS/LSASS.exe

 C:/WINDOWS/Debug/DebugProgram.exe  C:/WINDOWS/system32/dxdiag.com  C:/WINDOWS/system32/MSCONFIG.COM  C:/WINDOWS/system32/regedit.com

(c)使用Free Window Registry Repair注册表清理工具清理注册表中的垃圾信息。也可手动清除,下面是手动清除的需要删除的项目:

 HKEY_CLASSES_ROOT/WindowFiles

 HKEY_CURRENT_USER/Software/VB and VBA Program Settings  HKEY_CURRENT_USER/Software/Microsoft/Internet Explorer/Main

面的 Check_Associations项

 KEY_LOCAL_MACHINE/SOFTWARE/Clients/StartMenuInternet/INTEXPL

ORE.pif

 HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Windows/CurrentVersio

n/Run 下面的ToP项

(d)使用RegClean.com瑞星注册表修复工具修复注册表; (e)重启站控机后可再进行一次全盘杀毒。

- 5 -

附件5 SCADA系统信息安全常见故障处理方法

3、 站控数据不更新

1、故障现象

站场SCADA系统的站控电脑上显示的数据部分或大部分不能及时更新,数据处以橙色状态显示,如图8.2.5所示。以进出站压力或温度为例,如果这些数据不能及时更新,那么Viewstar日报表中每小时进出站压力或温度所记录的值同样也是不更新的,即固定不变。这样值班人员将不能正确判断站场的实际生产情况,形成较大的安全隐患。

一个简单的例子:比如某分输站的电动调压阀采用压力PID控制出站压力时,门站用气量突然减小了(如气罐车停止加气),但门站没有事先通知我分输站值班人员,而PID控制具有一定的滞后性,使得出站天然气因憋压而迅速上升。但是这时由于站控数据不能及时更新,造成值班人员未能及时发现,使得出站压力在有限的时间内能超过安全泄放阀设定压力,使得安全泄放阀放空。这本来是一个完全可以避免的情况。

2、故障原因

(1)站控机与RCI间的日期时间不一致;

(2)RCI长时间不间断工作,硬件老化,工作性能下降; (3)RCI内部配置不高;

- 6 -

附件5 SCADA系统信息安全常见故障处理方法

(4)第三方设备(如流量计算机、UPS)又不断地增加,数据采集量增大,工作负担加重;

(5)网络中有网线虚接或断开的地方。

这些使得RCI不能及时采集各种第三方设备的数据,即发生数据丢失现象,从而影响数据库中数据的准确性。 3、解决办法

RCI与很多第三方设备进行通讯,包括PLC、UPS、低压配电盘、流量计算机和燃气发电机等等,因为它与PLC的通信量最大,所以在此以它与PLC的通讯为例进行说明。解决数据不更新的步骤如下:

(1)在站控机上打开校时软件,对站控机进行校时,将其时钟与RCI同步。 (2)在站控机操作的系统配图界面,从中找到图标点击弹出一个对话框。

在该对话框中将“轮询”勾选上,点击应用。通常情况下,站控数据都会进行一次刷新,原先不变的数据都会发生变化,橙色变成白色即恢复正常。如果变化不大,可再轮询几次。

(3)如果以上都不起作用,可以对两台RCI进行切换,将原先为备用的切换到主用,并可重复(1)、(2)步,看看数据显示是否恢复正常。

- 7 -

附件5 SCADA系统信息安全常见故障处理方法

(4)如果以上都不起作用,可以将站控机工程停掉,然后再重启工程,再观察数据显示是否恢复正常。

(5)如果以上都不起作用,可以先将站控机工程停掉,然后把两台RCI分别重启,之后再重启工程,再观察数据显示是否恢复正常。

(6)如果以上都不起作用,可以将站控机工程停掉以后对站控机进行重启,主要还是为了刷新站控电脑的网络连接,然后重启工程,再观察数据显示是否恢复正常。

(7)如果以上都不起作用,可以用站控机的备份工程替换现有工程,再观察数据显示是否恢复正常。

(8)通常经过以上工作都可以恢复站控机数据的更新,如果上工作都不起作用,则需查看网络连接上有没有虚接的或断线的,交换机是否工作正常等。确认网络连接无问题后,可对RCI进行更换或硬件升级,提高其工作性能。

4、 第三方设备通讯故障

1、故障现象

在站控机上出现第三方设备通讯故障报警,如UPS通讯故障、流量计算机通讯故障、低压配电盘通讯故障、燃气发电机通讯故障等。 2、故障原因

(1)第三方设备停机或断电。

(2)通讯回路断路或有源1转2接口插头接触不良。 3、解决办法

(1)对于由设备停机或断电造成的通讯故障,无非是去查找设备本身停机的原因,以重新起机恢复通讯。

(2)而由通讯线路引起的通讯故障通常都集中在LSU 232_2防雷有源1转2接口上。LSU 232_2是用来将第三方设备的数据分别同时传到两台冗余的RCI通讯服务器用的:

- 8 -

附件5 SCADA系统信息安全常见故障处理方法

来自第三方设备(对应C line) 接到2#RCI(对应B line) 接到1#RCI(对应A line)

LSU 232_2的“A on”灯对应A line,“B on”对应B line,这两个灯亮则表明第三方设备到对应的1#RCI和2#RCI是接通的,“TxD”或“RxD”灯闪烁则表示目前第三方设备正在与RCI进行数据的发送或接收。通过观察这些指示灯的情况即可判断当前的第三方设备通讯情况。

通常第三方设备通讯故障都是由于“C line”处的串口插得不稳所至,因为该口串口的固定螺丝不容易固定住插头(硬件设计造成),开关机柜门时容易碰到该插头串口线,导致插头松动,从而引起通讯故障。这时只需要紧固一下该插头既可。

(3)如若发现LSU 232_2的指示灯都不亮了,可以用万用表检测其电源输入端电压,看看供电是否正常。如果电压为0,则需检查电源线路情况,以恢复供电。

如果电压正常(24VDC),且无串口虚接情况,则需判断LSU 232_2是否故障。可用调试笔记本接到来至第三设备的串口,通过在电脑上运行串口调试工具,来检测是否能够接收到第三方设备的数据。

(a)可以接收到第三方设备的数据,则将来至第三方设备的串口接至C line口,分别用笔记本电脑接A line和B line口,检测到是否可以接收到第三方设备的数据。如果接收不到,则表明LSU 232_2故障,需维修或更换。

(b)不可以接收到第三方设备的数据,则需查看来至第三方设备的数据线路是否有断路或设备本身存在故障。

- 9 -

附件5 SCADA系统信息安全常见故障处理方法

5、 RCI自动停机

1、故障现象:

RCI自动停机,蓝色运行指示灯熄灭,绿色电源指示灯闪烁(正常运行下蓝灯、绿灯都常亮),断电并重新上电启动后设备能运行,但只维持一段时间后会再次停机,有的RCI甚至不能重新启动。 2、故障原因:

RCI长期不间断运行,致使其电源(型号HP-U280EF3)内部芯片老化损坏,或电源风扇损坏,无法给RCI正常供电,致使设备自动停机。 3、解决办法:

更换RCI电源。但如能检查出电源的损坏部件,则可对该部件进行更换,以减少成本,如淮安站就曾经有一个电源是K419 TNY2684 28021B芯片损坏(过电流或过热导致损坏)。

电源更换步骤如下:

(1)对故障的RCI下电,将后板插槽上的串口线、网线断开,取出RCI,打开设备上盖板。

(2)找到RCI的电源,将与电源相连的各插头拔下,然后松开固定螺母,将故障电源取出。

- 10 -

附件5 SCADA系统信息安全常见故障处理方法

- 11 -

附件5 SCADA系统信息安全常见故障处理方法

(3)换上新的电源,重新固定好,并将各插头插上,整理好内部电线后盖上盖板。将串口线、网口重新接上,重新上电,观察电源灯绿灯、运行灯蓝灯是否常亮,常亮为正常。在上位机中使用指令对RCI进行切换,将更换好的RCI切换为主(为了减少对设备的损害,最好是采用软切换,但也可用硬切换,即关掉原先无故障的那台RCI,观察当前已维修的RCI是否能自动切换为主),测试设备运行是否正常。如果在上位机中的各种操作均无问题,则说明当前RCI工作正常,故障已排除。

6、 由于RCI需要轮询点数过多导致的故障

1、故障现象

郑州站改造过程中在升级HIMA程序后,发现站控系统ESD休眠命令下发后,站控机不断有新的休眠报警提示,确认复位后,仍不断弹出,逻辑上站控机休眠状态灯正常时应该是变红,不闪烁的,但现场情况为郑州站的休眠状态灯不断闪烁。 2、故障原因

开始以为是添加地址冲突造成,对所有新添加的数据点地址进行核查,未发现地址冲突问题。用调试笔记本与PLC联机发现上位机中的ESD休眠命令已经下发,确认故障只存在于站控机系统中。经过一段时间的检查后发现,由于郑州站的HIMA模块有9个之多,添加的报警点有50多个,在加上原来系统需要扫描的地址,改造后郑州站每次站控机轮询需要检测的地址有近200个,根据经验,一般轮询地址点超过100后,就会造成数据采集不准。这么多的地址如果同时扫描的话,很容易造成信号不稳和紊乱。故此,考虑将轮询地址分两批扫描。 3、解决办法

- 12 -

附件5 SCADA系统信息安全常见故障处理方法

(1)用Total Commander软件登陆RCI,在修改文件之前首先将配置文件拷贝到当地硬盘进行备份。

(2)将RCI中的MBPOLL_XXX_YYY.POL文件拷贝到当地硬盘下,其中XXX为RCI NUMBER,例如南京为175;YYY为通讯端口号,例如PLC为17。打开MBPOLL_XXX_YYY.POL:

(3)可以看到配置文件中第四行MbAnz为160,大于100,所以将其修改为两次轮训:

- 13 -

附件5 SCADA系统信息安全常见故障处理方法

(4)保存后,将修改后的配置文件DOWN回到RCI中:

(5)最后使用INIT 6命令重启RCI使配置生效,对另一台RCI进行同样操作即可。修改后,故障现象排除,系统恢复正常。

7、 阀室数据上传故障

1、故障现象

RTU阀室数据不能上传到北京调度,数据不能更新,调度也无法对阀室设备进行操作。

- 14 -

附件5 SCADA系统信息安全常见故障处理方法

2、故障原因

(1)机柜供电系统掉电; (2)DI或AI模块数据没采集上; (3)RTU控制器工作不正常; (4)RCI与路由器间通信故障。 3、解决办法

(1)检查机柜是否掉电,机柜掉电了的话,自然所有设备都无法工作,数据也无法上传。进入阀室大门,先看TEG发电机是否还在工作,如果已经不工作了,则很有可能RTU机柜和通信机柜内设备已经掉电。如果没掉电则表示蓄电池仍有电,但是请尽快重启TEG发电机。

(2)打开RTU机柜门,查看各DI或AI模块(16点开关量输入模块AS-BDEP-256、4通道模拟量输入模块AS-BADU-256等)的输入端指示灯是否红色常亮,亮则表示接通,正常情况下DI和AI模块的输入通道指示灯亮均会有亮的,因为都涉及到通道的使用。因为有发生过DI或AI模块的供电回路保险丝烧断的情况,致使输入模块无法采集现场数据,这种情况下更换保险即可。如果保险没有烧断,确认模块供电正常后,所有输入端的灯仍不亮。

也可通过模块识别来判断哪个模块连接不上。使用计算机登陆到RTU上,进入RTU的硬件配置,进入I/O Map,弹出以下窗口:

- 15 -

附件5 SCADA系统信息安全常见故障处理方法

上图中,在Detected下是红色背景的,证明这几块模块不被系统识别,它们的数据将无法通过背板传送到RTU的CPU中,是灰色背景的表示这部分硬件配置和实际完全一致。

(3)如果DI和AI模块工作指示灯正常,则检查RTU处理器模块PC-E984-258。首先查看它有没有掉电,因为它也有自己的保险,如果没有掉电则通过观察控制器的各LED灯即可判断它工作是否正常。各LED灯的含义如下:

CPU的LED灯含义

LED名称 Ready Run Bat low Modbus 1 Modbus 2

颜色 黄色 黄色 红色 黄色 黄色

含义

已供电,CPU正在运行 用户程序正在运行 电池电量低或已没电 传输活跃 连接笔记本用

如果其中的Ready灯或Run灯不亮黄色,则说明控制器有问题,对控制器进行重启,并连接笔记本电脑,打开Concept软件,在线查看程序工作情况是否正常,各现场设备的数据是否能正常传输被采集到RTU。

如果程序出问题,可采用备份程序重新下装到控制器中,再运行查看数据采集情况是否恢复。

- 16 -

附件5 SCADA系统信息安全常见故障处理方法

如果Modubus灯不亮黄色,则说明通信有问题,看看网线有没有虚接的地方,对其进行紧固,或更换一根完好的网线。然后观察RJ-45网口处LED灯的状态,黄色表示连接上,绿色表示通信活跃,如图8.5.3所示。并连接电脑查看数据采集情况是否恢复。

假如这些工作都做了以后仍然连接不上控制器,无法恢复程序,或采集到的数据仍然传不出去,则表明是控制器硬件问题,前提是确认网线没问题,则需更换控制器,并将更换下来的控制器进行维修。

(4)如果现场数据能够被正常采集上来,则问题将出在通信上,这时需对RCI和路由器进行检查。检查网线或其他数据接头是否有虚接的,将它们紧固,查看网口处指示灯的闪烁是否正常。确认网络线路连接没有问题以后,如若数据的上传仍然没有恢复,可以对RCI和路由器进行重启,如果硬件没有问题的话,通常情况下数据通信链路都能恢复,因为软件配置都不会有什么改变。

(5)如果还是有问题的话,可能是RCI的串口损坏或者RCI其它硬件出现问题,可以更换RCI测试一下,具体方法是,将RCI断电后取下,将RCI内的一块内存卡SDCFB--101-80取下,插入新的RCI内部,在恢复连线上电,检查通讯是否正常,如果通讯仍然不正常,就需要将旧的RCI及卡和一套新的RCI及卡寄到中油龙慧自动化公司,由工程人员对旧的RCI进行检测,对新的RCI进行配置,得出结论及配置好新RCI后一并返回管理处。

8、 甪直站调压橇压变PT5802传输数据错误的故障处理

- 17 -

附件5 SCADA系统信息安全常见故障处理方法

1、故障现象

甪直站更换了一个调压撬压力变送器以后,该压力取样点传输上来的数据跟实际现场压力表数据严重不符。 2、故障原因

由于更换了压力变送器,将原先量程压力范围为0-6Mpa的压力变送器换为量程为0-10MPa的压力变送器,而原先的上位机中数据库和PLC程序都还是按照原来0-6MPa的量程进行运算和执行的,因此造成传输后数据换算结果发生错误。 3、解决办法

将上位机viewstar的数据库跟PLC程序中的对应的压力量程0-6Mpa改为0-10Mpa,数据就对应上了真实值。具体修改办法如下:

(1)在concept中打开PLC程序。找到相应的SCALWTOR功能块,它用来将所采集到的模拟量电信号换算压力值:

其中,PI1202∈[0,4095],rPI1202∈[0.0,10.0],两者间的换算关系如下式:

VALOUT=

VALUEIN_MINSCALBMAXSCALBMIN+SCALBMIN

IN_MAXIN_MINrPI1202=

10PI12024095

修改压力上限,即对SCALBMAX进行修改既可,将6改成10。然后将更改后的程序进行下装,在“Online”选项中选择“Download changes”。

(2)Viewstar数据库中的数据点的更改:数据点的更改在组态环境Graphical

Editor点击Para 图标,进入数据库。数据库中,温变跟压变是在MIA下面,

找到要修改PT所对应的阀号。文件夹如下图所示:

- 18 -

附件5 SCADA系统信息安全常见故障处理方法

在value下的数据里面更改具体的参数。其中address为6位的IEC地址,Alert_hdl为报警设置,archive为归档设置,common为描述,单位及数据点位数设置,msg_conv为量程转换设置,pv_range为量程范围设置。在此只需在pv_range中更改量程,将原来的0-6MPa更改为0-10MPa即可。

9、 压气站HIMA ERROR故障分析和处理报告

1、适用对象

SCADA ESD系统 2、故障现象

从2009年11月22日,红柳站第一次发生4块HIMA F3DIO 20/8系列模块(F3A、F3B、F3C和F3D)同时Error故障报警,至2010年1月29日期间,四道班、轮南、红柳、玉门、靖边和中卫站6座场站发生HIMA ERROR共34次,涉及模块39块。其中红柳、靖边、中卫站为与西二线联络站,共发生27次,占总故障数的79.4%,轮南、玉门站各发生1次,四道班站发生5次。

当发生ERROR时,相应的Remote I/O模块将停止运行,看门狗信号会被切断,所有的输出将置off,ERROR灯变红,ERROR code>0。最终造成ESD系统无法正常运行,严重影响场站的安全平稳运行。

下表为绝大部分的HIMA ERROR情况统计:

HIMA ERROR情况统计

- 19 -

附件5 SCADA系统信息安全常见故障处理方法

序号 1

站 名 轮南站

日 期 HIMA模块 ERROR信息

因为HIMA的日期和时钟未调整,所以诊断日志上缺少记录。

12月19日 F3B

2

四道班站 11月27日

F3D IOT >>> UNEXPECTED COMPARATOR INTERRUPT„

3

四道班站 11月29日

F3D IOT >>> UNEXPECTED COMPARATOR 4 四道班站 5 四道班站 6 四道班站 7

红柳站

8

红柳站 9

红柳站 10 红柳站 11 红柳站 12

红柳站

13

红柳站 14

玉门站

15

靖边站 12月22日12月26日1月8日 11月22日11月24日11月26日12月19日12月26日1月6日

1月20日

12月17日12月4日 INTERRUPT„

F3D IOT >>> UNEXPECTED COMPARATOR INTERRUPT„

F3D IOT >>> UNEXPECTED COMPARATOR INTERRUPT„

F3D IOT >>> UNEXPECTED COMPARATOR INTERRUPT

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG F3C、F3D

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3A、F3B、CPU State >>> FAILURE STOP„ F3C、F3D

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG F3C、F3D、TIME OCCURRED„ F3E

CPU State >>> FAILURE STOP„

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG F3D、F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3E IOT >>> UNEXPECTED COMPARATOR INTERRUPT„

F3E、F3G

IOT >>> TIMEOUT OF CPU WATCHDOG

- 20 -

附件5 SCADA系统信息安全常见故障处理方法

16

靖边站

17

靖边站

18

中卫站

19

中卫站

20

中卫站

21

中卫站

22

中卫站

23

中卫站

24

中卫站

25

中卫站

26

中卫站

27

中卫站

12月5日

1月3日

12月26日 12月30日 1月1日

1月2日

1月3日

1月10日3:11

1月10日17:33

1月11日12:54

1月11日16:30

1月12日

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3E、F3G

IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG F3C、F3D、TIME OCCURRED„

E3E、F3F、CPU State >>> FAILURE STOP„ F3G

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG

F3C、F3D、TIME OCCURRED„ F3E

CPU State >>> FAILURE STOP„

F3E

IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3A、F3B、IOT >>> TIMEOUT OF CPU WATCHDOG F3D、F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3B、F3D、IOT >>> TIMEOUT OF CPU WATCHDOG F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3B、F3C、IOT >>> TIMEOUT OF CPU WATCHDOG F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

F3E

IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3E IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

F3B、F3C、IOT >>> TIMEOUT OF CPU WATCHDOG

- 21 -

附件5 SCADA系统信息安全常见故障处理方法

16:53

F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

28

中卫站 1月12日23:20

F3B、F3E

IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

CPU State >>> FAILURE STOP„

29

中卫站 1月13日1:29

F3B、F3E

IOT >>> TIMEOUT OF CPU WATCHDOG TIME OCCURRED„

CPU State >>> FAILURE STOP„

30

中卫站 1月25日

F3B、F3C、IOT >>> TIMEOUT OF CPU WATCHDOG F3E

TIME OCCURRED„

CPU State >>> FAILURE STOP„

31

中卫站 1月29日

F3E IOT >>> UNEXPECTED COMPARATOR INTERRUPT„

注:红色标记为F3 DIO 20/8 02型IO模块,未标记的为F3 DIO 20/8 01型模块。 3、总体故障分析

以下3种原因之一均会导致HIMA模块ERROR:  CPU检测到自身有一个硬件故障;  CPU检测到操作系统有一个软件错误;

 Watchdog触发ERROR STOP,因为CPU的运行周期Cycle time超过了

Watchdog time。

HIMA模块发生ERROR后,其CPU将停止应用程序的执行,所有硬件和软件的测试都会结束,所有的输出将被重置,只能在PADT(Programming and debugging Tool)中通过“Reboot Resource”命令将CPU重启。然而,具体情况还需要结合各站HIMA Remote I/O Diagnostics log(诊断日志)进行分析。模块的ERROR信息大体为以下三条:

 IOT>>>UNEXPECTED COMPARATOR INTERRUPT,其中IOT表示CPU

self tests,即CPU在自检时发现未知的比较器中断;

 IOT>>>TIMEOUT OF CPU WATCHDOG TIME OCCURRED,即CPU

Watchdog time(看门狗时间)超时;

- 22 -

附件5 SCADA系统信息安全常见故障处理方法

 CPU State>>>FAILURE STOP,即CPU为故障停运状态。 下边分别对这三个ERROR信息进行说明。 (1)UNEXPECTED COMPARATOR INTERRUPT

第一种情况中关于Comparator,由于HIMA模块有与安全相关的central module(模块),它基于SIL(Safety Integrity Level,according to IEC 61508)标准,由2个处理器系统组成,因此能够在运行时自检和比较运算结果。即所谓的比较器中断指的就是HIMA模块里的两个处理器在进行运算结果的比较时被中断了,具体原因是unexpected(未知的)。

Central module结构图:

(2)TIMEOUT OF CPU WATCHDOG TIME OCCURRED

第二种情况中HIMA模块的watchdog time(WT)超时,即CPU的运行周期cycle time>WT。WT是CPU运行周期的最大允许值,一旦运行周期大于这个值,CPU将会ERROR STOP。

下边为WT取值的2个约束条件: (1) 10ms≤WT≤(safety time/2)

(2) CTSmax+execution time of the application≤WT≤5000ms

其中safety time(ST)是控制器的安全时间,但不是整个程序的安全时间。CTS(communication time slice,通信时间段)是cycle time的一部分,该值大一些不会有负作用,只是当网络负担重时,CTS会增大,从而会使cycle time增大。相反,CTS小一些的话,可以减小cycle time受到网络的影响,在一定程度上cycle time

- 23 -

附件5 SCADA系统信息安全常见故障处理方法

的大小。但如果CTS太小的话,将存在并非所有通信任务都能在一个CPU cycle内执行完毕的风险,因而降低了数据传输的质量,一旦时间参数间发生冲突的话会引起通信路径的关闭。CTSmax即CTS的最大值,∈[2,5000]ms,为完成通信任务需要时间段的最大设定值。尽管CTSmax不可以直接被计算出来,但是CTS的最小值

CTSmin却可以计算出来,可以根据CTSmin来估取CTSmax。

CTSmin的计算方法如下:

(3)FAILURE STOP

观察红柳站和中卫站ERROR信息会发现“FAILURE STOP”单独发生的情况极少,通常发生在“IOT>>>TIMEOUT OF CPU WATCHDOG TIME OCCURRED”之后,也就是说WT溢出有可能接着引发CPU故障停运。由于硬件故障或软件错误都能引起ERROR STOP,仅仅靠“CPU State>>>FAILURE STOP”信息是不能明确故障原因的。如果通过“Reboot Resource”命令能够重启CPU,则说明故障是暂时性的,即目前故障已经消除;如果不能则说明HIMA模块可能已经损坏。

通过以上对ERROR信息的介绍,对故障情况有了大致了解,下边将做进一步深入分析。 4、具体原因分析

(1)网络中存在的计算机病毒

目前压气站站控网络中的控制系统较多,包括SCADA系统、ESD系统、压缩机控制系统、本特利振动控制系统等,涉及到的控制计算机也相应地很多。许多场站都或多或少的有过将不安全的移动存储设备直接到控制计算机上使用的情况,致使计算机有不同程度的中毒情况,病毒又会在网络中传播蔓延,损耗大量的网络带宽,引起网络堵塞,引起广播风暴。曾经在SCADA系统上位机杀出的病毒中就有很多的后门和蠕虫病毒,如Backdoor.SdBot.wgb、Worm.Lovgate等,这些病毒在站控网络

- 24 -

附件5 SCADA系统信息安全常见故障处理方法

中很有可能影响HIMA Remote I/O模块的正常运行。 (2)网络环路形成的网络风暴

HIMA公司认为场站之前的站控网络里HIMA F30模块的两个网口分别接到两台交换机,这两台交换机之间又用一根网线连接的方式,形成了一个物理上的环路,有可能造成网络风暴,进而影响HIMA模块的正常工作。

结合表2.1进一步观察会发现,ERROR机率较高的HIMA Remote I/O模块为F3 DIO 20/8 02型,而F3 DIO 20/8 01型ERROR的情况相对要少,F30控制器模块则没有ERROR过。下表为各站HIMA Remote IO型号:

各站HIMA Remote IO原先的型号统计

站名 轮南站 四道班站 红柳站 玉门站 中卫站 靖边站

HIMatrix F3 DIO 20/8

F3A 01 01 01 01 01 01

F3B 02 01 01 01 01 01

F3C 01 01 01 01 01 01

F3D 01 02 01 02 01 02

F3E 02 01 02 02 02 02

F3F 02 / / / / 02

F3G 02 / / / / 02

F3H 02 / / / / /

结合HIMA公司的意见,原因分析如下:

首先需要对HIMA Remote I/O模块硬件结构进行了解,F3 DIO 20/8 01型和F3 DIO 20/8 02型的硬件结构:

- 25 -

附件5 SCADA系统信息安全常见故障处理方法

由以上两图可知,01和02型模块硬件上的区别在于前者较后者多了COM和DUAL PORT RAM(双口RAM)。01型模块内部有COM和CPU两个控制单元,与F30模块类似,COM单元专门负责通讯数据处理,CPU单元则专门负责通讯以外的数据处理和运算,两个控制单元通过DUAL PORT RAM同时异步地访问存储单元。而02型只有CUP一个控制单元,因此CPU即负责通讯数据处理又负责数据运算,自然要比01型CPU的负担重。

网络风暴形成的大量广播包导致了某个情况下HIMA Remote I/O模块全部或部分故障停机。F30和F3 DIO 20/8 01模块因为有COM单元专门处理通讯数据,虽然大量的广播包在模块以太网端口大量复制传播导致COM单元工作负荷加大,但是不会影响CPU单元,不会导致其系统cycle time加长直到watchdog timeout的情况

- 26 -

附件5 SCADA系统信息安全常见故障处理方法

发生。而F3 DIO 20/8 02因其内部CPU即负责运算又管理通讯,无用的广播包使CPU通讯处理工作负荷加大,进而使系统cycle time加长,当cycle time>WT时会导致TIMEOUT OF CPU WATCHDOG。因此,02型模块比01型模块ERROR机率大很多。

(3)HIMA模块时间参数的设定过小

已经提到WT、ST和CTSmax三个时间参数对HIMA模块的影响,它们的值过小虽然可以提高系统的灵敏性,但同时也会增加报ERROR的几率。而且从WT超时报警信息来看,WT值的适当增大确实可以改善模块停机的敏感情况。下表为原先各站HIMA模块的时间参数配置:

各站HIMA模块ST、WT和

站名 轮南站 四道班站 红柳站 玉门站 中卫站 靖

参数 ST WT

CTSmax原先的实际配置

HIMA模块

F30 100 50 10 100 50 10 100 50 10 100 50 10 500 200 10 100

F3A 100 50 10 24 12 10 20 10 10 20 10 10 20 10 10 20

F3B 100 50 10 24 12 10 20 10 10 20 10 10 20 10 10 20

F3C 100 50 10 24 12 10 20 10 10 20 10 10 20 10 10 20

F3D 100 50 10 24 12 10 20 10 10 200 100 5 20 10 10 20

F3E 100 50 10 24 12 10 20 10 5 20 10 5 20 10 5 20

F3F 20 10 10 \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ 20

F3G 20 10 10 \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ 20

F3H 20 10 10 \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\

CTSmax

ST WT

CTSmax

ST WT

CTSmax

ST WT

CTSmax

ST WT

CTSmax

ST

- 27 -

附件5 SCADA系统信息安全常见故障处理方法

边站

WT 50 10

20 10

20 10

20 10

20 5

20 5

20 5

20 5

\\ \\

CTSmax

5、故障处理

经过以上分析,为了解决HIMA ERROR故障,除了对SCADA系统站控机进行杀毒以外,我们也采纳了HIMA公司的意见,从站控网络下手,用Wireshark(Ethereal)软件对几个压气站的站控系统网络都分别进行了抓包,深入分析网络数据组成结构和各种数据包流量,并于今年1月底进行了统一处理,效果显著,目前为止再没有出现ERROR。

主要处理方法及步骤如下:

1)向调度进行汇报,对相关程序如路由器、交换机、PLC程序、ESD程序进行备份,将ESD休眠并将DO输出拔下。

2)配合北京中心对站场路由器、交换机配置进行修改。  路由器配置的修改:

(a) 将路由器与两台交换机相连接的端口配置由原来的半双工“half-duplex”改为全双工“full-duplex”。

(b) 对路由器连接两台交换机的端口进行配置,比如端口为interface FastEthernet0/0和interface FastEthernet0/1,则相应地增加“passive-interface FastEthernet0/0”和“passive-interface FastEthernet0/1”语句,目的是禁止路由器的这两个端口向局域网中发送信息,避免环网。  交换机配置的修改:

(a) 在交换机与两台路由器相连接的端口增加“duplex full”和“speed 100”(速率100Mbps)语句;

(b)对两台交换机互连的24口进行配置,增加“switchport mode trunk”和“spanning-tree vlan 1 cost 10”语句,目的是阻塞网络中的环路,使网络快速达到收敛。

3)对RCI文件进行修改,并将上位机和RCI原来的网桥改为网卡绑定。这样更改后RCI在重新启动时就不会重新产生网络拓扑结构,使两台冗余RCI服务器之间达到

- 28 -

附件5 SCADA系统信息安全常见故障处理方法

无扰切换,避免了RCI切换期间通讯设备会短暂中断的现象。

修改步骤:

(a) 将UPDATE_DELL_650_750.tar这个文件放到var目录下; (b) 执行gunzip命令将 UPDATE_DELL_650_750.tar文件进行解压; (c) 用tar –xvf命令执行UPDATE_DELL_650_750.tar文件; (d) 用cd UPDATE_DELL_650_750命令进入该目录下;

(e) 执行/copy命令将执行文件考入UPDATE_DELL_650_750目录下; (f) 打开route.csh文件,将其中的“br”改为“bond”; (g) 执行init 6重新启动RCI后,修改完成。

4)将PLC程序中关于采集匀速管流量计的程序删除。因为现场匀速管流量计已经停用,匀速管流量计与PLC为Modbus TCP/IP协议,PLC会在网络上会一直轮询匀速管流量计IP,删除匀速管流量计程序后,会减少PLC在网络上广播包的发送量。

5)根据2.2.2中的介绍,结合现场情况修改各HIMA模块的时间参数。 6)将站控机上所有的共享目录取消,并安装瑞星杀毒软件,进行全盘杀毒。 7)备份更改后的路由器、交换机、PLC程序、ESD程序。 8)关键作业步骤前后用Wireshark软件的抓包分析。 9)恢复设备正常状态。

除了以上主要处理方法外,个别压气站还做了其它处理,下边分别做些具体介绍。其中,靖边站已在去年12月初完成了相关工作,在此不在复述。 (1)四道班站故障处理

1月5日对四道班站控系统网络进行9.5min的抓包,包出现的频率为1835.5packets/min,其中有86.68%为ARP(Address Resolution Protocol,地址解析协议)Broadcast(广播包):

- 29 -

附件5 SCADA系统信息安全常见故障处理方法

该协议包主要由IP地址为10.216.163.144(1#压缩机控制屏)和10.216.163.145(2#压缩机控制屏)的设备发出,目标IP地址为10.216.163.9(1#、2#压缩机控制屏网关):

- 30 -

附件5 SCADA系统信息安全常见故障处理方法

这两个广播包的内容类似,即寻找网关10.216.163.9。进一步分析发如此广播的原因,结合四道班站路由器配置得知,在路由器中有如下配置:

interface BVI1

ip address 172.17.20.135 255.255.255.192 standby 9 ip 172.17.20.137

其中,172.17.20.135为1#路由器IP地址,255.255.255.192为子网掩码,172.17.20.137为网关,由此我们得知在路由器中配置并没有配置10.216.163.9这么一个网关,由此造成两台压缩机控制屏找不到该网关,从而不停地发送广播包。

解决方法:在不影响这两台压缩机控制屏通信的前提下,1月9日我们将它们的IP分别改成172.17.20.170和172.17.20.171,子网掩码255.255.255.192,网关172.17.20.137。之后进行了10.9min的抓包,发现上边提到的两种广播包已经消除,包出现的频率减少到了394.9packets/min。

另外,1月19日再次检查网络时,发现该站1#压缩机控制屏、2#压缩机控制屏、压缩机站控机这三台计算机都将本地卡和远程卡的IP配反了,虽然不会影响压缩机内部的通讯,但是会使流经SCADA系统站控网络的数据量增大,即会增加一定量的网络负担,因此对其进行了改正。经过统一处理后,又进行了8.6min的抓包,包出现的频率又减小到166.2packets/min,ARP广播包的数量已经减少到2.52%,可见网络负担大大减轻。

- 31 -

附件5 SCADA系统信息安全常见故障处理方法

IO Graphs上看,四道班站作业后,网络数据流峰值明显降低,由55降到了8。从这个程度而言四道班站已经不存在网络负担了。

- 32 -

附件5 SCADA系统信息安全常见故障处理方法

(2)红柳站故障处理

1月8日对红柳站站控系统网络进行了8.5min的抓包,包出现的频率为1229.6packets/min。此次抓包我们需要注意的协议包为NBNS协议包(占43.60%)和TCP协议包(占21.67%。TCP协议包中包含NBSS协议包,NBSS协议包中又包含SMB协议包):

接下来的IO Graphs中出现了一个很明显的数据流浪涌,峰值达到300,时间出现在465s后,该浪涌的数据包的组成如图8.8.25所示,协议包括NBNS、TCP、NBSS和SMB。浪涌造成的直接后果就是网络拥挤堵塞。

- 33 -

附件5 SCADA系统信息安全常见故障处理方法

再结合两处典型浪涌数据流,可见浪涌的真实组成,其中DCERPC、IOXIDRes均属于TCP协议。

- 34 -

附件5 SCADA系统信息安全常见故障处理方法

接下来我们需要查找数据浪涌产生的原因,从浪涌之前的一段时间内网络数据包的情况可以找到诱因。值得注意的有3组包,它们的序号分别为(7832和7833)、(9611和9612)、(2041和2044),它们均为NBNS协议包,查看它们的info可以发现:每组包的第一个包为“Name query…”,第二个包为“Name query response…”,即第一个询问,第二个应答。具体为IP地址172.17.21.172(压缩机1-4)和172.17.21.173(压缩机1-5)的设备,在红柳站的网段172.17.21.191内发一个广播,分别查询工作组BELLGATES<20>或BELLGATES<00>内的计算机,而IP地址172.17.21.134(未知)设备对此询问做了应答,从而引起了接下来172.17.21.172与172.17.21.134,172.17.21.173与172.17.21.134间的频繁通信,造成浪涌。

在进行下一步处理之前,我们需要简单了解一下NBNS、NBSS和SMB三种协

- 35 -

附件5 SCADA系统信息安全常见故障处理方法

议,从而才能做出正确的处理。

1)NBNS:NetBIOS Name Service,NetBIOS名称服务。NetBIOS是Network Basic Input/Output System的简称,一般指用于局域网通信的一套API(Application Programming Interface,应用程序编程接口)。NetBIOS是一个网络协议,在上世纪80年代早期由IBM和Sytec联合开发,用于所谓的PC-Network。虽然公开发表的文档很少,协议的API却成为了事实上的标准。 随着PC-Network被令牌环和以太网取代,NetBIOS也应该退出历史舞台。但是,由于很多软件使用了NetBIOS的API,所以NetBIOS被适配到了各种其他的协议上,比如IPX/SPX和TCP/IP。

使用令牌环和以太网传输的NetBIOS现在被称为NetBEUI。在Microsoft Windows 98发布之前,一直广泛使用。在TCP/IP上运行的NetBIOS称为NBT,由RFC 1001和RFC 1002定义。NBT的基本思想是在基于IP的络上模拟基于NetBIOS的PC-Network。NBT在Windows 2000中引入,是现在首选的NetBIOS传输。

不管使用哪一种传输方式,NetBIOS提供三种不同的服务:  名字服务(NBNS):名字登记和解析  会话服务(NBSS):可靠的基于连接的通信  数据包服务:不可靠的无连接通信

NetBIOS和NetBEUI被设计为仅仅用于局域网,因此不支持路由,并且最多只能处理72个节点或者设备。NetBIOS和NetBEUI经常使用广播实现,尤其是名字服务的相关操作。

2)NBSS:NetBIOS Session Service,NetBIOS会话服务。它是应用程序可能彼此通信的两种方式之一,另一个可选择的是NetBIOS数据报服务。NetBIOS会话服务是面向连接的通信的。NBSS让两台计算机建立一个连接用于“会话”,允许更多的信息被处理,和提供错误探测和修复。NetBIOS通讯的大多数发生在网站上,使用NetBIOS会话服务产生,其使用TCP端口139。文件和打印服务是NetBIOS会话服务的基本应用。另一个 NBSS的普遍应用是网络应用程序:服务器管理器、用户管理器、事件查看器、注册编辑器和性能监控器。

3)SMB:Server Message Block,服务信息块协议。用于在计算机间共享文件、打印机、串口等。SMB协议可以用在因特网的TCP/IP协议之上,也可以用在其它

- 36 -

附件5 SCADA系统信息安全常见故障处理方法

网络协议如IPX和NetBEUI之上。SMB一种客户机/服务器、请求/响应协议。通过SMB协议,客户端应用程序可以在各种网络环境下读、写服务器上的文件,以及对服务器程序提出服务请求。此外通过SMB 协议,应用程序可以访问远程服务器端的文件、以及打印机、邮件槽(mail slot)、命名管道(named pipe)等资源。在TCP/IP环境下,客户机通过NetBIOS over TCP/IP(或 NetBEUI/TCP或SPX/IPX)连接服务器。一旦连接成功,客户机可发送SMB命令到服务器上,从而客户机能够访问共享目录、打开文件、读写文件,以及一切在文件系统上能做的所有事情。

解决方法:对172.17.21.172、172.17.21.173和172.17.21.134设备做进一步处理,如将其NetBIOS协议禁用(前提是该协议不用),或者将其NBNS的端口号netbios-ns(137)禁用或,或者将这些IP禁用(前提是实际上并没有所谓的这些设备)等。

1月25日经过处理后红柳站的网络数据情况,本次抓包历时12.2min,包出现的频率为188.3packets/min,数据流峰值由原先的300下降到了9,可见网络负担明显减少,浪涌情况得到了有效遏制。

(3)玉门站故障处理

1月7日对玉门站站控系统进行第一次抓包,历时11.9min,包出现的频率为1535.2packets/min,峰值可达160(如图8.8.29)。此次抓包我们需要注意的协议包为NBNS(占14.%)协议包和TCP(占58.97%)协议包:

- 37 -

附件5 SCADA系统信息安全常见故障处理方法

举其中的一个数据流浪涌为例。玉门站的情况与红柳站的类似,包括数据流浪涌的组成以及造成浪涌的原因。同样的,我们注意观察第2707、2708、2709和2710包,在此要关注的IP为172.17.22.44(2#压缩机压缩机remote card)和172.17.22.6(未知设备),把它们对应的设备分别叫做A和B:

1)第2707包:A在向玉门站的网段172.17.22.63内发送广播,查询工作组BELLGATES<20>内的计算机;

2)第2708包:B在广播查找A;

3)第2709报:A把自己的MAC地址广播出来; 4)第2710包:B对A做了应答;

5)接下来引起了A和B间频繁通信,形成浪涌。

- 38 -

附件5 SCADA系统信息安全常见故障处理方法

处理方法与红柳站的类似。1月27日处理以后,对玉门站进行了历时7.6min的抓包,包出现的频率为191.8packets/min。在为数不多一次浪涌的峰值也不足25,可见网络负担明显减少,浪涌情况得到了有效遏制:

(4)轮南站故障处理

1月20日在对轮南站进行故障处理前的第一次抓包历时10.2min,包出现的频率为1312.5packets/min。1月21日在作业结束后的最后一次抓包历时90.25min,包出现的频率为503.4packets/min。处理结果显示网络包减少了61.7%,但是仔细对比作业前后的抓包情况 ,会发现以下两个问题并没有消除:

1)IP地址172.17.20.41(1#压缩机控制屏remote card,简称设备A)和172.17.20.42(2#压缩机控制屏remote card,简称设备B)时常会频繁访问很多未知的IP,且还

- 39 -

附件5 SCADA系统信息安全常见故障处理方法

会发出很多NBNS协议广播,在172.17.20.63网段内询问很多工作组,且设备B比设备A发出的NBNS协议包要多得多:

2)IP地址172.17.20.50(Bently system1 remote card)和10.216.161.140(Bently system1 local card)会发出很多NBNS协议广播,分别在172.17.20.255和10.216.161.255网段内询问很多工作组。

- 40 -

附件5 SCADA系统信息安全常见故障处理方法

从以上图可以看出,有可能1#和2#压缩机控制屏、Bently system1这三台计算机有可能感染了计算机病毒,从而造成了很多协议包的频繁发送。

解决办法:对以上三台计算机进行杀毒,然后再抓包检查网络是否恢复正常。这也是压缩机处目前正在着手进行的一件事。 (5)中卫站故障处理

中卫站的情况则与轮南站的类似,同样是存在一些设备在访问未知的IP,以及发送过多的NBNS协议广播包。个性问题如下:

1)IP地址172.17.23.106(1#压缩机控制屏remote card,简称设备A)和172.17.23.107(2#压缩机控制屏remote card,简称设备B)时常会频繁访问很多未知的IP:

- 41 -

附件5 SCADA系统信息安全常见故障处理方法

2)IP地址10.216.172.138(未知)、172.17.23.110(压缩机2-1)和172.17.23.112(压缩机2-3)会发出很多NBNS协议广播,分别在10.216.172.255和172.17.23.127网段内询问很多工作组。但是与轮南站不同的是,中卫站的NBNS协议包访问的工作组比较固定,没有轮南站的繁多:

- 42 -

附件5 SCADA系统信息安全常见故障处理方法

解决办法与轮南站的类似。

中卫站还有一个与其它站都不一样的地方,即该站在1月底统一作业以后,其HIMA F3E模块仍然会不时地报ERROR(警信息为WT超时),而别的模块则很正常。最后判断该F3E(02型)可能是硬件上已经损坏,于是在3月初对该模块进行了更换,将其换成了一个01型模块。至今为止F3E没有再发生过ERROR,情况已经恢复正常。

10、 控制网组网不正常

1、故障现象

当AB PLC控制网组网不正常时,控制网模块(ControlNet模块,1756-CNBR模块)的OK灯会是红色常亮、红闪或绿闪,或者控制网模块的A网通道或B网通道状态灯是红色常亮或红闪。控制网模块指示灯,正常是OK灯、A网通道灯、B网通道灯都应该是绿色常亮。控制网模块前端面板如图9.1所示,控制网结构。

组网不正常,将影响控制器对某些远程机架I/O模块采集数据的读取。

- 43 -

附件5 SCADA系统信息安全常见故障处理方法

2、故障原因

(1)分接器的末端缺少终端电阻(型号1786-XT),或终端电阻损坏,正常情况下该其阻值应为75Ω。终端电阻必须安装在每一段末端的分接器上,如上图9.2中所示。

(2)控制网模块的节点地址有误; (3)某处同轴电缆有损坏; (4)某处同轴电缆接头连接不紧;

(5)某处A网通道与B网通道接串,即A网通道接到了B网通道、B网通道接到了A网通道。 3、解决办法

1)如果某个控制网模块OK灯红色常亮,则

(1)将模块从机架上取下(该模块可带电插拔,只要确认周围环境中没有可燃气体),检查该模块的节点地址是否被设置为网络中唯一的节点地址,且不能是00或99。

(2)在模块的顶部,可以看到地址切换开关,把开关打到需要设定的地址即可,模块的地址为23。

- 44 -

附件5 SCADA系统信息安全常见故障处理方法

(3)将模块重新插回机架原来的槽位,并重新上电; (4)如果模块OK灯仍为红色,则更换模块;

2)如果某个控制网模块OK灯红闪,则需要使用ControlFLASH软件对模块进行固件升级。

3)如果控制网模块OK灯绿闪,通常是网络中所有的控制网模块OK灯都会绿闪,并且A网通道灯或B网通道灯也会红色常亮或红闪,哪个网的通道灯红色常亮或红闪,则说明哪个网有问题:

(1)可对设备进行一次断电和重新上电,让设备进行自检,看可否恢复正常; (2)检查分接器的终端电阻是否有安装,或终端电阻阻值是否为75Ω; (3)网络配置或节点可能有问题,对控制网进行重新组网。将调试笔记本连接到控制器的网络中,使用RSNetwork for ControlNet软件对AB PLC网络节点进行扫描;

(4)当扫描到某个节点处中断时,说明此节点处前后的同轴电缆故障,或同轴电缆接头没接稳,也有可能是A网通道与B网通道接串,需要仔细检查,另外需要注意Anybus Communicator的A通道和B通道经常有被接反的情况;

(5)待所有的节点都扫描到以后,在工具栏中点击Network->properties,弹出对话框,“Max Scheduled Address”(最大预定地址)处填15,“Media Redundancy”(媒介冗余)处选择A/B(表示A/B网冗余),其他可保留默认设置。

- 45 -

附件5 SCADA系统信息安全常见故障处理方法

(6)将新的配置下载到控制网中去,在工具栏中点击Network->Download to Network。

11、 Anybus Communicator与ESD系统通讯中断

1、故障现象

Anybus communicator协议转换器(以下简称ABC)与Safety Management(以下简称SM)ESD系统的通讯中断时,ABC的5#LED灯(Subnet Status,子网状态)将为红色常亮。ABC的前端面板指示灯:

2、故障原因

主要原因为ABC与SM的DCOM-232/485通讯板间的RS-485线有问题,可能是串口没有插稳,或者是9针串口头针脚接线焊错。

- 46 -

附件5 SCADA系统信息安全常见故障处理方法

3、解决办法

(1)检查ABC底部的串口和SM的串口有没有插稳;

(2)检查9针串口头针脚接线有没有焊错。正确的焊接为ABC底部串口的8针接SM串口的3针和4针,ABC底部串口的9针接SM串口的7针和8针。

ABC底部的串口针分配。

SM的DCOM-232/485通讯板,西二线场站中用的是中间的RS485口,该口和左边的RS485口是一样的,只是如果只用了其中的一个口,那么另一个口就需要插上一个终端头。串口针分配如图9.8所示。

- 47 -

附件5 SCADA系统信息安全常见故障处理方法

12、 I/O模块通讯故障

1、故障现象

I/O模块通讯故障,即AB PLC中的I/O模块与控制器的通讯中断,此时控制器前端面板的I/O灯将不为绿色常亮(正常情况下该灯应为绿色常亮),或用RSLogix 5000软件登录控制器时,也会看到I/O Not Responding指示灯不为绿色常亮:

2、故障原因

(1)如果I/O Not Responding灯不亮,说明在控制器的I/O组态中没有模块,或者在控制器中不包含任何工程。

(2)如果I/O Not Responding灯绿闪,说明有一个或多个I/O模块没有响应,

- 48 -

附件5 SCADA系统信息安全常见故障处理方法

控制器不能识别这些模块:

备注:①模块上的黄色叹号三角表示该模块故障;

②故障描述。

2、解决办法

(1)检查程序中I/O模块的组态是否正确,各模块的槽位是否正确,与实际是否相一致;

(2)检查机架上对应的I/O模块是否插稳;

(3)检查机架上对应的I/O模块是否出现故障,通过查看OK灯是否为绿色常亮来进行相应处理(OK灯正常应为绿色常亮)。若模块OK灯绿闪,可对机架进行断电再重新上电让模块自检,通常可以恢复;若模块OK灯红闪,则说明先前建立的通讯已经超时,需检查控制器、控制网模块、I/O模块三者间的通讯;若模块OK灯为红色常亮,则说明模块故障,直接更换模块。

13、 AB PLC系统Ethernet冗余网络通讯A网失败后B网不能工作 1 故障描述

此故障以鲁山分输压气站为例。在进行AB PLC网络冗余测试的过程中发现,冗余的网络并不能实现冗余功能。当断开A网后,B网并不能正常工作。HMI显示与PLC通讯中断,数据采集监控失效。

- 49 -

附件5 SCADA系统信息安全常见故障处理方法

A网Ethernet模块 B网Ethernet模块

2 故障分析处理

对于AB PLC与通讯服务器之间B网通讯故障分析处理,现场采取了以下步骤: 1.检查B网Ethernet/IP模块及B网工作状态

1)断开A网Ethernet/IP模块后,观察B网Ethernet/IP模块,Link灯常亮,Net灯闪烁(AB PLC与通讯服务器正常通讯过程中,Link灯应闪烁,Net灯应常亮),且Ethernet/IP模块静态IP地址配置正确。说明该网网络已经配置,但并未连接。

2)为进一步确定问题原因,锁定问题范围,通过笔记本电脑,连接B网交换机,进行网络设置后,检查交换机与PLC B网之间通路。

Ping 172.17.157.165(AB PLC B网IP地址),数据收发正常,B网交换机至PLC之间通讯正常。

在笔记本电脑上配置RSlinx远程驱动,测试通过B网在线连接控制器,并Upload工程,在线监控运行情况。

测试结果显示,笔记本电脑通过B网交换机连接PLC完全正常。同时表明,B网交换机至PLC之间硬件设备及网络完全正常。

2.检查主备通讯服务器与B网交换机及AB PLC之间的网络通路

分别从主备通讯服务器上,Ping PLC B网IP地址172.17.157.165。检查显示,数据收发正常,从主备服务器均能Ping到PLC B网IP地址。

通过上述两个主要测试步骤的进行,已经排除了PLC设备硬件故障和通讯服务

- 50 -

附件5 SCADA系统信息安全常见故障处理方法

器与PLC B网网络通路故障的可能。由此,问题基本可以锁定在通讯服务器的相关配置上。

3.检查通讯服务器与AB PLC之间通讯的相关配置 1)检查主备通讯服务器RSlinx配置及运行情况

通讯服务器与AB PLC之间通讯,必须在服务器上通过RSlinx进行远程驱动组态,如果RSlinx配置有问题,或者运行不正常,则通讯失败。

① 在通讯服务器上,以管理员权限打开RSLinx Launch Control Panel

② 取消Always Run As Service选项勾选(如果不取消,点击Start无效,无法打开RSlinx)

③ 检查远程驱动组态

- 51 -

附件5 SCADA系统信息安全常见故障处理方法

正常的配置情况应该是,在RSLinx分别组态PLC A网和B网的IP远程驱动,并分别命名为TCP-1和TCP-2.即本站应该分别组态172.17.157.133和172.17. 157. 165的远程驱动。

检查鲁山站配置,TCP-1和TCP-2两个远程驱动均配置为172.17.157.133的IP地址,因此,在A网中断的情况下,服务器根本无法与PLC进行通讯连接,通讯必然中断。

2)检查通讯服务器数据库中与AB PLC的配置情况

通讯服务器RSlinx驱动组态错误或者RSlinx运行不正常,是造成此次故障现象的一种原因。如果数据库文件配置存在问题,同样会出现上述问题。

① 打开数据库,部分站场设置了用户名和密码。用户名为mngr,密码为6083772,选择无用户名模式打开。

② 分别点击进入通道组态和控制器组态,检查AB PLC配置情况,检查关键点将在图中标注。

- 52 -

附件5 SCADA系统信息安全常见故障处理方法

③ 图片取自三门峡分输站。检查鲁山分输站数据库中AB PLC的控制器及通道配置均正确。

这里需要说明的是,在通道冗余配置中,如果将TCP-1和TCP-2不写入或者均写

- 53 -

附件5 SCADA系统信息安全常见故障处理方法

为了同一个,那么在实际情况中也会出现上述的问题。对于如果将TCP-1与TCP-2写重复的情况,可能会出现双网同时断或者同时恢复的情况,冗余的双网依然是不能正常工作的。

4.经过上述检查分析,确认问题为通讯服务器RSlinx远程驱动配置错误。对TCP-2远程驱动重新配置,并运行,故障消失,B网正常工作,通讯恢复。

14、 北调无法看到ESD系统中的模拟量

1、故障现象

北调无法看到站场ESD系统采集上来的模拟量,如排污罐压力和液位。 2、故障原因

故障原因主要为站场上位机数据库中所建相关模拟量点地址与ESD系统所采集模拟量的地址不一致,而北调又是通过站场上位机数据库中所建点地址来读取对应数据的,简单而言即地址错误造成无法读取数据。 3、解决办法

(1)修改上位机数据库中所建点的地址,使其与ESD系统中的模拟量点地址一致。

以排污罐液位为例,该模拟量在ESD程序中变量名为LIT_9201,它给上位机的地址为10162(如图9.38),在上位机数据库中对应点为00D017_LIT_9201,其地址“PV Source Address”应当为与10162相对应的SM_A4 10162 FSC420MA。

- 54 -

附件5 SCADA系统信息安全常见故障处理方法

LIT_9201给上位机HS的地址 LIT_9201给下位机AB PLC的地址

(2)点击下载,把修改好的点下载到上位机工程中。 (3)重启通讯服务器中的104Slave服务。

15、 通讯服务器冗余配置失败

1、故障现象:

在进行A、B通讯服务器的冗余配置时,总是配置失败。 2、故障原因:

务必要按照配置步骤进行,而且需注意的是用Run模式下的CMD命令进行配置是无法成功的。 3、解决办法:

在配置冗余时要使用Windows自带的CMD,用管理员方式进行配置。 每台通讯服务器具体冗余配置的详细过程如下: (1)以管理员身份运行记事本:

- 55 -

附件5 SCADA系统信息安全常见故障处理方法

在服务器桌面中选择Start->Programs->Accessories->Notepad,点击鼠标右键,选择Run As Administrator。

(2)输入用户名xierxian和密码cplh,将其打开。 (3)用记事本打开hosts文件,其路径为: C:\\Windows\\System32\\drivers\\etc\\hosts:

(4)在hosts文件末尾写入通讯服务器IP和服务器名称。比如,XX站通讯服务器的hosts文件中写入如图9.48所示的信息。

172.17.150.1 XXA XXA0 A通讯服务器1#网卡的IP和主机名 172.17.150.2 XXA1 A通讯服务器2#网卡的IP和主机名 172.17.150.3 XXB XXB0 B通讯服务器1#网卡的IP和主机名 172.17.150.4 XXB1 B通讯服务器2#网卡的IP和主机名 修改好以后将此文件保存关闭。

- 56 -

附件5 SCADA系统信息安全常见故障处理方法

(5)用记事本打开redun.hdw文件,该文件用于服务器网络的冗余配置,其路径为C:\\Program Files\\Honeywell\\Experion PKS\\Server\\redun.hdw:

在redun.hdw文件的末尾有: & DEL LNK01

& ADD LNK01 NETWORK_LINK 删除“&”符号变成: DEL LNK01

ADD LNK01 NETWORK_LINK 修改完保存后关闭。

- 57 -

附件5 SCADA系统信息安全常见故障处理方法

(6)在桌面点击鼠标左键双击Station,选择主菜单->Connect…,弹出对话框,点击New Connection…新建4个连接,分别将其Connection Name命名为A0、A1、B0和B1,保存在C:\\Program Files\\Honeywell\\Experion PKS\\Client\\Station文件夹里。

(7)对新建的连接进行编辑,选中某个连接后点击Edit Connection…,弹出图9.52对话框。比如,对于XXA0在Sever后选择XXA0,并勾选下边的“Auxiliary setup file”,在

Browse…处选择

C:\\Program Files\\Honeywell\\Experion

PKS\\Client\\Station\\B0,于是系统在连接不上A0时,将自动去连接B0。

- 58 -

附件5 SCADA系统信息安全常见故障处理方法

(8)按照(7)依次对B0、A1和B1进行设置,让系统在连接不上B0时自动去连接A1,如果连接不上A1又自动去连接B1,如果连接不上B1又自动去连接A0,最终让系统循环检测四个连接A0——B0——A1——B1——A0。

(9)按照(1)以管理员身份运行Experion Command Prompt:

(10)在弹出的DOS画面中,输入cd C:\\Program Files\\Honeywell\\Experion PKS\\Server\\(redun.hdw的路径)命令,回车。

(11)再输入hdwbld redun.hdw,回车,运行后如没有错误则表示冗余配置完成。

- 59 -

附件5 SCADA系统信息安全常见故障处理方法

(12)当两台服务器都设置好之后,鼠标左键双击点击Station,启动通讯服务器工程,选择System Status->System Hardware->Sever Redundancy,在Status选项卡中,点击Synchronize进行同步:

16、 配置路由器时在配置界面上出现乱码

1、故障现象

在对路由器进行配置时,配置界面上出现乱码,无法操作。 2、故障原因

配置终端(如超级终端)的参数设置与路由器Console口的不一致,通常为波特率不一致,路由器Console口波特率通常为9600,但有些却不是。 3、解决办法

(1)用专用配置线缆将调试笔记本串口与路由器Console口连上,打开笔记本超级终端,选择好COM口;

(2)对COM口参数进行设置,设置界面如图9.100,波特率可能不是9600(常用的还有2400、4800、19200等),可以换不同的波特率试,而其它的设置通常为“数据位8/奇偶校验无/停止位1/数据流控制硬件”。

- 60 -

附件5 SCADA系统信息安全常见故障处理方法

17、 DDN通讯中断

1、故障现象

在站场上位机中通过DDN线路来ping北调服务器的IP,ping不通,没有实现与北调的DDN通讯。 2、故障原因

(1)上位机到交换机的网线(或光纤)有问题; (2)路由器到交换机的网线有问题;

(3)联通DDN设备到SCADA系统路由器的2M线路有问题。 (4)路由器没有配置好。 (5)联通的DDN业务没有做好。 (6)联通DDN光缆断了。 3、解决办法

(1)检查上位机到交换机的网线(或光纤)有无未接稳或断的; (2)检查路由器到交换机的网线有无未接稳或断的;

- 61 -

附件5 SCADA系统信息安全常见故障处理方法

(3)检查联通DDN设备到SCADA系统路由器的2M线路有无未接稳或断的。 在此要特别指出联通DDN设备到SCADA系统路由器的2M线路与普通的网线不同,它的一端是2个同轴电缆接头,另一端是网口(网口接到路由器)。这根线虽然也是用网线做的,但是它只用到其中的4芯——橙、橙白、白蓝、蓝,两头的对应关系如下表:

同轴电缆接头处 1#同轴电缆接头外壳,橙 1#同轴电缆接头芯,橙白 2#同轴电缆接头外壳,蓝白 2#同轴电缆接头芯,蓝 网口处 1针,橙 2针,橙白 4针,蓝白 5针,蓝 (4)检查路由器是否已配置好; (5)确认联通的DDN业务是否已做好; (6)确保联通DDN光缆没有断。

18、 站场与北调的通讯频繁闪断

1、故障现象

站场与北调的通讯频繁闪断,北调时而能看到场站数据,时而看不到,不论是走北京主的光纤通讯,还是北京备的联通的DDN通讯都一样。 2、故障原因

这主要与Honeywell的104Slave通讯协议软件有关,该软件需采用最新的版本。 3、解决办法

(1)将上位机(包括服务器和客户端)中旧版的Honeywell的104Slave通讯协议软件卸载掉;

(2)重新安装最新版的104Slave软件,并做好配置。 (3)重启上位机104Slave服务。

19、 路由器用户名、密码失败,无法登录及配置

1、2811 CISCO路由器用户名和密码的恢复方法

- 62 -

附件5 SCADA系统信息安全常见故障处理方法

(1)关闭路由器电源;

(2)拔出路由器Flash Card(插在路由器上的存储卡);

(3)打开路由器,在启动前10秒内按“ctrl”+“break”,进入路由的配置状态;

(4)路由器出现:rommon >

(5)Rommon>confreg 0x2142 在路由器启动后跳过启动文件 (6)Rommon>reset 重新启动路由器 (7)关闭路由器电源;

(8)重新插入路由器Flash Card; (9)打开路由器电源;

(10)当路由器启动结束,出现配置向导的时候,键入“n”; (11)回车,出现router >

(12)router>en 不需要口令就可以进入了 (13)router#copy start run 回车确认 (14)router#config t 进入配置模式

(15)router(config)#username cisco password cisco 配置新的用户名cisco和密码cisco

(16)router(config)# ena sec cisco 配置模式密码为cisco (17)router(config)#config-register 0x2102 修改寄存器地址为原来的0x2102

(18)router(config)#exit 退出 (19)router#copy run start 拷贝运行文件 (20)router#reload 重启 重启后用户名和所有的密码就为“cisco”了。

2、路由器配置方法

1)电脑与路由器连接:一条浅蓝色的专用电缆(一端是9针母头,另一端是水

- 63 -

附件5 SCADA系统信息安全常见故障处理方法

晶头),9针母头接在电脑后面的串口上,水晶头接在路由器后面的CONSOLE口上;

2)电脑超级终端配置:打开电脑超级终端,在超级终端端口中选择电脑连接路由器的COM口,并将其参数按照“波特率9600/数据位8/校验位无/停止位1/数据流控制为硬件”进行设置;

3)路由器开机过程:打开路由器的电源开关,一些开机过程内容显示在超级终端的对话框内。当出现hostname>提示符说明开机正常;

4)路由器配置过程: (1)hostname>en (2)Password:cisco

(3)Hostname#wr era 清除已保存的配置 (4)Hostname#reload [confirm] 原始配置重新引导 (5)Would you like to enter the initial configuration dialog?[Y/N] no (6)Would you like to terminate auto install?[y] y (7)Router>en (8)Router# conf t

(9)Router(config terminal)# 在此处写好的配置文件粘贴进去 (10)Router# wr mem 保存新粘贴的配置 备注:①写配置时出现^标志说明本行写入有错;

②用show run命令可以查看写入的配置;

③输入sh ip int bri命令可以查看各端口及协议状态。

20、 第三方设备与上位机通讯无法建立或通讯不正常

1、故障现象

第三方设备与上位机的通讯方式,大体可以分为以下两种:

——以Modbus RTU协议,通过RS485串口形式接入MOXA(串口服务器),进行协议转换后与上位机通讯,此类第三方设备如发电机、UPS等。

——以Modbus TCP/IP协议,通过网口形式接到SCADA系统交换机,再与上

- -

附件5 SCADA系统信息安全常见故障处理方法

位机通讯,此类第三方设备如低压配电柜等,它们不需要经过MOXA。

在这两种方式下均会出现通讯无法建立或者通讯不正常的情况。 2、解决办法

按照以上两种通讯方式,分开排查。

1)第三方设备以Modbus RTU协议通过MOXA与上位机间通讯的

(1)检查主备MOXA的IP配置是否正确,并且必须在主备通讯服务器的host文件中正确添加主备MOXA的IP地址(参照IP分配表),host文件的路径为C:\\WINDOWS\\system32\\drivers\\etc。

需要查看修改host文件时,先以管理员身份打开记事本:Start->Programs->Accessories->Notepad,点击鼠标右键,选择Run as Administrator。

(2)检查现场信号线接入MOXA是否正确。

现场接线:第三方设备通讯线缆——普通端子排——防雷击端子排——信号分配器——主备MOXA服务器。

以上环节中,重点检查防雷击端子排及信号分配器接线,如果防雷击端子排通道击穿或者信号分配器接线接反,则通讯中断。

(3)检查MOXA的配置是否正确。 a)网络配置

在硬件上对MOXA的Network Setting的IP Address(IP地址)和Netmask(子网掩码)进行配置。(注:MENU为菜单选项,通过上下按钮可以移动到所需配置的菜单选项,Submit为提交按钮)。

b)串口参数设置:通过IE远程访问该设备即可进入配置界面,比如MOXA的IP为192.168.3.154,则在IE地址栏中输入忽略://192.168.3.154/即可。

c)其他配置

具体参数配置方法如下(以FIQ1001为例):

Basic Setting(基本设置)、Network Setting(网络设置)、Serial Settings(串口设置)、Operating Setting(操作设置)。

配置完后重启MOXA即可使配置生效。

- 65 -

附件5 SCADA系统信息安全常见故障处理方法

- 66 -

附件5 SCADA系统信息安全常见故障处理方法

注:Local TCP Port:4001(系统默认值,不修改,在HS里配置时需要此信息);

Command Port:966(默认值,不修改)。

(4)如果所有第三方通讯均不能实现,还需检查上位机配置。 主要是对上位机中的数据库Quick Build进行修改,配置如下: a)通道:主备串口服务器共用一个通道:

①基本配置

在Main页面,通道命名:NPort1_P1,1#串口服务器1口所对应的第三方设备通道:

- 67 -

附件5 SCADA系统信息安全常见故障处理方法

②设置通讯协议、串口服务器地址以及端口号 在Port页面:

Port Type选择TerminalServer; Protocol选择Modbus RTU;

Terminal Server TCP HOST Name:主串口服务器的IP地址192.168.3.154; Terminal Server TCP Port NO.:填写Nport Operating Setting的参数(MOXA中的Local TCP Port:4001)4001。

③冗余配置:

- 68 -

附件5 SCADA系统信息安全常见故障处理方法

在Redundant Port页面,配置冗余串口服务器对应的参数即可:

④控制器配置

●Modbus控制对应不同的第三方设备有数字量控制器和模拟量控制器两种,这两种控制器对应的都是NPort1_P1通道,如图9.109。

——数字量控制器在Data Table选项里选择Digital Output,对应Modbus地址为0xxxx;

——模拟量控制在Data Table选项里选择Holding Register,对应Modbus地址为4xxxx;

●控制器命名规则,以FIQ1001为例:

——数字量控制器FIQ1001_D0,D表示数字量,0表示地址类型(0xxxx); ——模拟量控制器FIQ1001_A4,A表示模拟量,4表示地址类型(4xxxx); ●控制器的配置需要注意的地方: ——通道的选择一定要正确;

——PLC Station ID为对应第三方通讯设备的Slave Address。

- 69 -

附件5 SCADA系统信息安全常见故障处理方法

(5)根据厂家提供的各数据点的Modbus通讯地址表,检查数据点。 2)第三方设备直接以Modbus TCP/IP协议与上位机进行通讯的。 (1)检查第三方设备本体IP地址配置是否正确;

(2)检查第三方设备本体通讯参数设置是否正确,包括波特率、奇偶校验、停止位等;

(3)检查网络是否正常,通过在上位机中ping第三方设备IP,能ping通说明网络正常,若ping不通,则需检查网线、交换机接口等是否正常;

(4)根据厂家提供的各数据点的Modbus通讯地址表,检查数据点。

21、 机柜间到站控室的1#光纤不通

1故障现象

机柜间到站控室的1#光纤不通,通过查看交换机模块的指示灯不亮即可知道。 2排查方法

机柜间到站控室的1#光纤走向如下图所示:

- 70 -

附件5 SCADA系统信息安全常见故障处理方法

站控室SCS001光熔接盒 站控室 1#交换机 1/1口光纤1#芯 1/1口光纤2#芯 1#口 2#口 3#口 4#口 5#口 6#口 7#口 8#口 机柜间SCS001光熔接盒 1#口 2#口 3#口 4#口 5#口 6#口 7#口 8#口 机柜间 1#交换机 1/1口光纤1#芯 1/1口光纤2#芯

(1)通过与2#光纤连接方式(2#光纤是通的)进行对比,判断1#光纤接法没有错误;

(2)对调光纤所插交换机的光口,如把1/1口对等地换到1/2口(两端的交换机都做相同调换),光路仍不通,排除交换机故障;

(3)对调光纤所插光熔接盒的光口,如把3#和4#口分别换到1#口和2#口(两端光熔接盒都做相同调换),光路仍不通;

(4)排除了交换机故障,那么就剩下光纤的故障,用新的光纤来替代当前交换机与光熔接盒间的光纤,检查该部分光纤是否有问题;如果该部分光纤没有问题,则需要专业的设备来测试两端光熔接盒间的光纤是否有问题。

- 71 -

附件5 SCADA系统信息安全常见故障处理方法

22、 Hirschmann交换机IP地址设置

为了增加交换机通讯稳定性,需要对交换机进行静态IP地址及子网掩码和路由网关进行设定,以三门峡分输站为例,设定可以通过以下两种方法进行: 1 使用Rockwell的BOOTP-DHCP工具进行设定

通过这种方法设置操作比较复杂,但不失为一种解决办法。在通过交换机自带工具无法操作的情况下,可以通过这种方法进行。

1.用笔记本连接交换机,使用Rockwell的BOOTP-DHCP工具给交换机设置IP地址,例如172.17.151.155 。

- 72 -

附件5 SCADA系统信息安全常见故障处理方法

2.查看所连接的交换机前面板上贴的物理地址标签,双击对应物理地址的任意一行。

3.点OK,等出现和MAC地址对应的IP地址。

73

附件5 SCADA系统信息安全常见故障处理方法

4.关闭BOOTP-DHCP,选择“否”即可。

5.将电脑IP设置为与当前交换机同网段的地址,Ping新设置IP地址的交换机,如果能Ping通说明前面的设置成功。

74

附件5 SCADA系统信息安全常见故障处理方法

6.选择“开始”——“运行”,输入 Telnet 172.17.151.155,回车,出现以下窗口。

7.输入用户名:admin 回车,输入密码:private 回车。

75

第8章 SCADA系统典型故障库

8.按下图输入命令,设置交换机的子网掩码和网关。每条指令输入完后回车,输入“y”后稍等片刻,等待提示“configuration saved”,设置成功。

9.输入“show run”,如果出现以下画面,说明网关设置成功。

2 使用交换机自带工具HiDiscovery进行设定

通过这种方法进行操作,步骤简单,配置信息一目了然。

- 76 -

第8章 SCADA系统典型故障库

1.用笔记本连接交换机,选择同网段空闲IP地址对笔记本进行网络设定,运行HiDiscovery。以交换机网络地址IP:172.17.156.250,子网掩码:255.255.255.224,默认网关:172.17.157.254为例。

2.HiDiscovery会自动扫描所连接网络的交换机物理地址,如果交换机未进行过网络配置,则会显示IP地址、子网掩码、路由网关均为0.0.0.0,双击0.0.0.0,弹出网络配置设置窗口,根据网络分配,输入网络地址,点击OK完成配置。

3.点击工具栏PING按钮,HiDiscovery会自动ping所连接的交换机,如果能ping通,说明IP地址配置成功。

- 77 -

第8章 SCADA系统典型故障库

4.点击工具栏Telnet按钮,HiDiscovery会自动登录所连接交换机。

23、 交换机及路由器对应端口通讯方式配置

为了增加各站场与北京中心、廊坊中心和上海中心通讯的稳定性,需要对站场交换机与路由器相对应端口通讯方式进行设置,由自适应设置为全双工工作模式,配置方法以三门峡站一台交换机和一台路由器为例: 1 对交换机对应路由器端口通讯方式配置

1.进行交换机与路由器连接端口校线,确定交换机与路由器连接端口。

接1#路由器 接2#路由器

- 78 -

第8章 SCADA系统典型故障库

接2#交换机 接1#交换机

通过分别断开网线,确认交换机与路由器连接方式为:

交换机interface 2/4——路由器interface FastEthernet0/2/1 交换机interface 3/2——路由器interface FastEthernet0/2/3 备注:

交换机interface 2/4的含义:如上Hirschmann交换机,左边第一槽上的模块为交换机模块,其余2-6槽均为1-5号介质模块,每个介质模块均有1-4各端口,因此interface 2/4代表第二个介质模块的第四个端口。

路由器的端口编号在路由器背面各口上均有标注。

2.设置笔记本电脑网络连接并登录交换机,可以使用DOS界面通过telnet交换机IP地址进行,也可以使用超级终端进行连接,为了便于操作,减少误操作的几率,建议使用超级终端的方式进行连接。

为新建超级链接命名,命名为sanmenxia_swich_B,此处命名没有特殊要求。

- 79 -

第8章 SCADA系统典型故障库

选择使用TCP/IP的方式连接,并输入所连接交换机的IP地址。

输入用户名admin,密码private,并回车,并输入en进行使能。

- 80 -

第8章 SCADA系统典型故障库

此时可以通过输入show run或者show config命令查看系统配置信息,也可以输入show port all命令查看交换机各端口工作状态,此处不再查看系统配置信息,直接对端口进行配置。

输入config回车进入配置模式,输入interface 2/4回车进入该端口的配置状态,输入no auto-negotiate回车完成该端口配置,输入exit退回到配置状态并按上述步骤对另一端口进行配置。

配置完成后,输入show port all命令查看端口状态,可以看到上述两个端口经过配置工作模式已经变为全双工,速率100Mbps通讯模式。

- 81 -

第8章 SCADA系统典型故障库

将当前配置保存进入交换机,输入copy命令回车,调出保存命令;输入copy system: running-config nvram:startup-config回车并选择y,完成对交换机配置文件的保存。

备注:

1.通过DOS界面下telnet或者超级终端的方式对交换机与路由器进行配置时,如果记不清楚所要使用的命令时,可以通过输入命令的前几个字母加“?”来调出所有相关命令。

2.对交换机进行端口工作模式等配置工作,也可以通过IE浏览器的方式,通过IP地址登录交换机进行配置,配置方式更为简洁明了,但因无法随时查看端口工作状态以及建立连接速度缓慢,所以此处没有采用。 2 对路由器对应交换机端口通讯方式配置

1.选择超级终端的方式与路由器建立连接,此处同样可以采用在DOS界面下进行登录操作。

通过TCP/IP的连接方式并输入路由器IP地址后,进入登录界面,输入密码BOGC回车,输入en进行使能,此处对路由器进行配置使能也需要密码,070318。

- 82 -

第8章 SCADA系统典型故障库

输入show run或者show config可以进行配置文件的查看;输入sh ip int bri可以查看各端口的工作状态及协议状态。

输入config t进入路由器配置模式,输入interface FastEthernet0/2/0回车进入端口配置模式,输入speed 100回车,输入duplex full回车。注意,此处输入speed 100与duplex full后由于改变了路由器的配置,笔记本与路由器的连接可能会两次出现中断,出现中断后点击回车键,等待笔记本与路由器再次连接,重新登录完成步骤。

进行同样的操作对端口interface FastEthernet0/2/3进行配置,配置完成后两次输入exit命令退出配置模式,并输入show run查看配置的端口,已经将全双工,速率100Mbps的配置信息写在了对应端口下。

输入sh ip int bri查看配置完成的端口工作是否工作正常,可以看到上述两个端口状态及协议状态均为“up”,工作正常。

- 83 -

第8章 SCADA系统典型故障库

24、 洛阳分输站与北京中心通讯中断

1 故障描述

洛阳分输站站场SCADA系统与北京中心通讯中断(与上海调度中心通讯正常),站内通过重新启动通讯服务器,和主备路由器,均不能恢复与中心的通讯。 2 故障分析处理

对该故障的分析处理,必须清楚掌握站场SCADA系统的通讯路径:站场SCADA系统通讯服务器通过局域网与AB PLC、ESD SM、 MOXA串口服务器及客户端等设备通讯,实现现场设备及第三方通讯数据采集及监控,同时经路由器实现与北京中心、廊坊中心及上海调度中心的通讯。 1.检查通讯服务器工作情况。

检查通讯服务器工作状态发现,洛阳站冗余通讯服务器中A机因硬盘故障停止工作,B机作为主用服务器。查看B机PKS服务运行良好,对B机重新启动,通讯不能恢复,初步诊断通讯服务器不是造成通讯中断的原因。另外,如果B通讯服务器运行不正常,那么站控客户端也将无法监控全站情况,这与实际不符。

2.检查路由器工作情况。

首先从外观进行检查,电源运行正常,网线连接正常;其次,登录路由器对其各端口的工作状态及协议状态进行检查。检查涉及北京、廊坊及上海通讯的端口及协议均为UP,正常。由此,初步判断路由器不是造成通讯中断的原因。另外,如果主路由器出现故障,那么站场与上海调度中心的通讯也有可能中断,这也与实际不符。

3.检查交换机工作情况

对主备交换机进行外观及登录检查,确定交换机工作正常,检查配置文件交换机与路由器相连各端口工作状态正常。由此初步判断交换机不是造成通讯中断的原因。另外,如果交换机出现问题,站场客户端同样不能监控全站运行情况,也与实际不符。

4.检查网络通路

1)联系北京中心,取得对方IP地址为172.31.150.9;查看IP地址分配表,主备通讯服务器IP地址分别为:

A机:A网IP:172.17.157.65 B网IP:172.17.157.97;

- 84 -

第8章 SCADA系统典型故障库

B机:A网IP:172.17.157.66 B网IP:172.17.157.98

2)通过笔记本电脑连接局域网A网,或者直接从B服务器进行操作,此处为了便于诊断通过笔记本电脑进行操作。

通过笔记本电脑ping B服务器A网IP地址172.17.157.66,数据收发正常;ping北京中心IP地址172.31.150.9,数据收发正常;通过B服务器直接ping北京中心IP地址172.31.150.9,数据收发正常。由此判断,B服务器通过A网与北京中心通讯畅通。

4)通过笔记本电脑连接局域网B网, ping B服务器B网IP地址172.17.157.98,数据不能接收,通讯中断;ping北京中心IP地址,数据收发正常;通过B服务器直接ping北京中心IP地址,数据不能接收,通讯中断。由此判断,B服务器通过B网与北京中心通讯中断,而且基本锁定中断位置在服务器与交换机之间。

5)检查B网交换机与B服务器之间的网线连接,发现B服务器接入交换机的网线水晶头存在裂纹,但从交换机端口处观察状态正常。更换水晶头,重新做网线,再重复上面的步骤,B服务器恢复了通过B网与中心的通讯。电话确认,洛阳站恢复了与北京中心的通讯,实现远程监控。 3 结论分析

1.洛阳站与北京中心通讯中断是在A通讯服务器因故障停止工作的情况下,B服务器B网因网口出现问题而故障但A网通讯正常的情况下发生的。

2.关于B服务器A网通讯正常,通讯却中断的原因是:虽然在站场通过A、B两台服务器进行冗余,而每台服务器又通过A、B双网进行冗余,也即站场通讯服务器拥有四个IP地址可供访问,但是由于北京中心HMI与站场HMI为不同公司产品,北京中心不能同时从四个IP地址冗余采集数据。

实际的情况是,在进行工程组态的时候,北京中心选用了A服务器的A网段IP地址和B服务器的B网段IP地址在其HMI上进行了组态。因此,当A服务器故障停止工作,而B服务器B网出现故障的情况下,通讯中断产生。........忽略此处.......

- 85 -

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务