1 中文分词
1.1 语言的理解
语言是用于传递信息的一种表现形式。从宏观上讲,语言理解是指计算机能够执行人类所期望的某些特定语言功能;从微观上讲,语言是指语言到计算机内部直接的一种映射。语言理解包括:对于含规则的句子,能理解句子的正确词序规则以及其概念;对于不含规则的句子,也能理解其含内在义;能理解组成句子的词语的确切含义、词性和构词方法,并分析理解语句的多义性和歧义性,对具体语句进行理解的前提就是要对句子进行准确的切割识别。
1.2 中文分词算法
中文分词是涉及智能应用、文本挖掘、web挖掘和信息增值服务等多个应用领域的一项信息处理技术。中文分词算法是指使用计算机自动对中文文本进行词语的切分,是中文自然语言处理中的一个基本单元的环节。
词是最小的语言成分。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文分词比之英文要复杂的多、困难的多,其难点主要体现在以下几点:
(1)存在歧义的问题。如电力系统专业词语“二次空气开关”在中文里面“二次”“空气”“开关”都是词语,对这句话的词语切分有3种形式:“二次空气开关”“二次/空气开关”和“二次/空气/开关”,这样的歧义现象在汉语中非常常见,对中文词语切分造成极大的干扰。
(2)语句顺序问题。比如出现“开冈线110kV线路侧”时,计算机是无法判断其语句顺序,必须要提前定义其正确写法为“110kV开冈线线路侧”,才能准确辨识。
(3)未定义词识别问题。词典中不可能收录所有的词语,大量的人名、地名、单位和班组名称都是新词,例如“鹤山站、110kV、线路侧、开冈线、40地刀”等,在中文里这些未定义词没有空格作为边界,因此识别难度很大。
因此,中文分词是中文信息处理的基础和关键,中文分词算法研究的就是让计算机能采用正确的切分方法处理中文信息,以达到语言理解的目的。
1.3 正向最大匹配算法
目前,常用的中文分词算法有基于字符串匹配的中文分词算法,需基于词库进行语句的切分,其中包括的一个分词方法是正向最大匹配算法。这种算法基于将一个语句切分为所包含的词充分大,切分结构充分小的思想。正向最大匹配算法是按照一定的策略将待分词语句与一个已知“充分大的”词典中的各个词条进行逐个对比,如果待分词语句和词典中的词相匹配则匹配的字段作为一个词被分割出来,如果不匹配则去掉待分词语句的最后一个字重新和已有的词典进行匹配,直到语句不能切分为止。
2 线路工作票安全措施填写规范
为贯彻落实《中国南方电网有限责任公司电力安全工作规程》(Q/CSG 510001-2015)有关工作票的管理规定,根据2017年南方电网公司发布的技术标准《工作票实施规范》规定,输电线路第一种工作票的工作要求的安全措施包含以下几点:
(1)应拉断路器(开关)和隔离开关(刀闸)(厂站名及双重名称或编号)。填写所有需要发电厂、变电站、用户端(包括危及该线路停电作业而不能采取安全措施的交叉跨越、平行和同杆线路)应断开的(包括填票时已断开的)断路器、线路和所有母线侧隔离开关名称及编号。
(2)应合的接地刀闸(注明双重名称或编号)或应装的接地线(装设地点)。填写所有需要由值班人员在线路来电侧合上的接地刀闸(注明双重名称或编号)和装设的接地线。
(3)应设遮栏、应挂标示牌(注明位置)。填写在工作线路(包含共用工作票线路)的线路侧刀闸和旁路母线侧刀闸操作把手上悬挂“禁止合闸,线路有人工作!”标示牌。如表1所示为输电线路第一种工作票安全措施。
表1 输电线路第一种工作票安全措施
工作要求的安全措施(必要时可附页绘图说明) | 应拉断路器(开关)和隔离开关(刀闸)(厂站名及双重名称或编号):(1)断开碧辉站110kV碧杜线1165开关,拉开线路侧11654刀闸、1M侧11651刀闸,取下线路侧电压互感器的二次熔断器或断开二次空气开关;(2)断开杜阮站110kV碧杜线1165开关,拉开线路侧11654刀闸、1M侧11651刀闸,取下线路侧电压互感器(下接附页) | ||||||
应合的接地刀闸(注明双重名称或编号)或应装的接地线(装设地点):(1)碧辉站:合上110kV碧杜线线路侧116540接地刀闸;(2)杜阮站:合上110kV碧杜线线路侧116540接地刀闸 | |||||||
应设遮栏、应挂标示牌(注明位置):(1)在碧辉站的110kV碧杜线线路侧11654刀闸的操作把手、线路侧电压互感器的二次熔断器或二次空气开关的操作处,悬挂“禁止合闸,线路有人工作”标示牌;(2)在杜阮站的110kV碧杜线线路侧11654刀闸的操作把手、线路侧电压互感器的二次熔断器或二次空气开关的操作处,悬挂“禁止合闸,线路有人工作”标示牌 | |||||||
其他安全措施和注意事项:(1)开工前,工作负责人必须向全体施工人员做好110kV碧杜线停电施工安全技术交代;(2)严格执行“十个规定动作”要求;(3)110kV碧辉站110kV碧杜线116540接地刀闸兼工作接地;(下接附页) | |||||||
应装设的接地线 | 线路名称及杆号 | 110kV碧杜线#1塔大号侧A相、B相、C相 |
|
|
|
|
|
接地线编号 | #11、#12、#13 |
|
|
|
|
| |
签发 | 工作票签发人签名:刘天绍 时间:2017年11月08日10时18分 工作票签发人签名: 时间:年 月 日 时 分 |
3 中文分词在线路工作票安全措施中的应用
3.1 对线路工作票安全措施语句切分
采用正向最大匹配算法对线路工作票安全措施语句进行切分,主要步骤有:
(1)根据全区变电站线路间隔信息建立本体库。
(2)基于本体建立语义框架文本库,如表2所示。
(3)基于语义框架的本体映射,实现语义结构的正向最大匹配。
(4)根据提取的有效信息与文本库进行匹配性识别。
表2 建立语义框架文本库
序号 | 线路名称 | 变电站 | 电压等级 | 调度编号 |
19 | 龙赤线 | 祥龙站-赤坎站 | 110kV | 1461 |
20 | 振涤线 | 振华站-涤纶站 | 110kV | 1441 |
21 | 冈红线 | 沙冈站-红花站 | 110kV | 1479 |
22 | 美振线 | 新美站-振华站 | 110kV | 1442 |
23 | 合赤线 | 合山站-赤坎站 | 110kV | 1452 |
24 | 合金线 | 合山站-金鸡站 | 110kV | 1451 |
25 | 塘苍线 | 沙塘站-苍城站 | 110kV | 1436 |
26 | 月苍线 | 月山站-苍城站 | 110kV | 1430 |
27 | 苍龙线 | 苍城站-龙胜站 | 110kV | 1432 |
28 | 翠塘线 | 翠山站-沙塘站 | 110kV | 1431 |
3.2 对线路工作票安全措施进行辨识
本文采用web挖掘技术提取工作票安全措施文本信息,自动与平台系统上的文本库进行匹配性识别。如图1所示,标红的中文文本分别出现了电压等级、开关编号、动词、设备名称和专业术语等错误,如“220kV合山站”应为“110 kV合山站”;“110kV合赤线1352开关”应为“110kV合赤线1452开关”;“断开线路侧”应为“拉开线路侧”;“145240刀闸”应为“145240地刀”以及“禁止合闸,线路有工作”应为“禁止合闸,线路有人工作”等。通过计算机自动识别和校核之后,调度员有针对性提醒开票人员进行哪些修改完善。
图1 线路工作票安全措施辨识结果
4 结语
综上所述,文章分析了电力调度员在接收和审核线路第一种工作票中安全措施所存在效率低、容易出现人为审核把关不严等问题,基于中文分词理论对线路工作票上的安全措施语句进行分割处理并进行识别,并结合平台系统实现了计算机对线路工作票安全措施的自动校核,提高了调度员工作效率,同时也确保了线路工作票安全措施填写规范、准确。
参考文献
[1]Q/CSG1205006-2016,工作票实施规范(输电部分)[S].
[2]GB 26859-2011,电力安全工作规程 电力线路部分[S].北京:中国标准出版社,2012.
[3]徐楠楠,王东风,韩璞.基于正向最大匹配算法的电力两票安全识别[J].计算机仿真,2014,(1).
[4]王惠仙,龙华.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报(自然科学版),2011,28(5).
[5]陈瑞谦.基于VB6.0电力系统工作票计算机管理系统设计与应用[J].工业控制计算机,2008,(6).
收稿日期:2017-12-01
作者简介:黄定威(1988-),男,广东江门人,广东电网有限责任公司江门供电局工程师,研究方向:调度运行管理。