发布网友
共1个回答
热心网友
引言
电子病历在医疗中的应用日益广泛,其作为主要信息源取代纸张病历的潜力巨大。电子病历包含多样化的信息,其中非结构化的医学文本成为研究热点。自然语言处理(NLP)在医学领域的应用,特别是针对中文文本的处理,已成为医学信息学研究的活跃方向。然而,中文文本处理中的一大挑战是分词,相较于英文的明确分隔,中文文本的分词更为复杂。
市面上已有多种中文分词工具,如jieba、Thulac、ITP、ICTCLAS、HanLP、IK等,它们各有优势。然而,针对中文医学文本的分词问题,研究仍面临挑战。本文以清华大学的Thulac分词系统为基础,针对糖尿病患者现病史中的词语切分进行了研究。
资料来源
选取某大型三甲医院的糖尿病患者现病史数据1000条,实际可用数据为919条,内容涵盖患者从入院到出院的检查结果、医生医嘱、用药情况等。
处理方法
采用三种策略进行分词:直接使用Thulac分词系统、结合清华词库进行分词、自主构建糖尿病医学词库配合Thulac进行分词。
分词测评方法
采用国际中文分词测评标准进行测评,包括随机抽取100名患者的现病史文本进行人工分词,并使用perl脚本进行自动评分。
分词指标选用
评估指标包括准确率、召回率和F1值,用于比较不同分词方法的效果。
结果
通过三种方法的分词结果分析,发现直接使用Thulac分词系统的准确率较低,结合清华词库后效果有所提升,自主构建糖尿病医学词库后分词效果更为明显,但仍存在一些问题,如某些症状和体征词汇未被有效拆分。
局限性
实践中发现,中文医学文本的分词问题复杂,不仅需要考虑词汇拆分,还需考虑词库构建的优化,以提高未来特征提取的准确性。未来研究应进一步探索更有效的分词策略,提高中文医学文本处理的效率和精度。