📋通平台数据处理工具说明文档(东软版本)

📋 目录导航

📋工具概述

通平台数据处理工具(东软版本)是一个专业的医疗数据标准化处理系统,专门针对东软医院信息系统的数据格式进行优化。该工具能够将单一的药品使用信息Excel文件转换为标准化的目标表格,支持复杂的科室结构识别和医保编码处理。本版本采用智能表头检测和数据聚合处理技术,具有强大的适应性和灵活性。

🔧功能特点

1. 核心功能

2. 高级特性

智能表头检测

自动识别和适配不同格式的Excel表头结构

数据聚合处理

自动按科室+药品编码进行聚类,累加使用量和金额

动态科室结构识别

支持四级科室结构的智能识别和分类

科室结构总表维护

自动维护桌面科室结构总表,确保科室ID一致性

智能医保编码处理

自动识别和处理医保编码信息

前导零格式保护

确保科室ID保持正确格式(如029000而非29000.0)

新增科室高亮

新增科室在总表中自动标记为绿色高亮

临时文件自动清理

处理完成后自动清理临时文件

3. 用户界面特性

📁数据要求

必需文件(1个)

  1. 药品使用信息数据
    • 格式:Excel文件(.xlsx/.xls)
    • 包含完整的药品使用详细数据
    • 支持智能表头检测,自动适配不同的列名格式

可选文件(1个)

  1. 科室结构总表
    • 自定义科室结构,不选择时使用桌面默认表

📊数据格式要求

药品使用信息数据必须列

东软版本的核心优势:智能表头匹配功能

系统会自动识别和映射列名,大幅降低数据准备要求。

智能表头匹配特性

  • 自动跳行检测:系统会智能检测表头行位置,无需手动指定跳过行数
  • 智能列名匹配:自动识别包含特殊字符(如换行符\n、空格)的列名
  • 容错处理:支持列名的变体形式和不同的命名规范
  • 自动映射:将原始列名自动映射为标准化的列名

必须列说明(支持智能匹配)

系统会自动识别以下列名及其变体:

科室名称列

  • 智能匹配领药科室科室名称医生科室科室
  • 用途:标识药品使用的科室

药品编码列

  • 智能匹配药品编码药品代码药品ID药品id院内药品唯一码
  • 用途:药品的唯一标识符

药品名称列

  • 智能匹配药品名称产品名称通用名
  • 用途:药品的完整名称

使用量列

  • 智能匹配发生数量数量基本单位数量基本单位\n数量使用量实发数量
  • 用途:药品使用的数量(支持聚合求和)

单价列

  • 智能匹配单价售价零售总金额
  • 用途:药品的单位价格

规格列

  • 智能匹配规格制剂规格包装规格基本单位
  • 用途:药品的规格信息

国家医保编码

  • 智能匹配国家编码医保编码国家医保编码统一编码编码
  • 用途:国家统一的医保编码,用于标准化输出

数据聚合逻辑

系统会按照科室+药品编码进行数据聚合:

  • 求和字段:使用量
  • 保留字段:其他所有字段保留第一个值
  • 重新计算:聚合后重新计算总金额 = 使用量 × 单价

输出列名映射

原始列名会自动映射为标准化列名:

  • 领药科室/科室名称 → 科室名称
  • 药品编码/药品代码 → 药品编码
  • 发生数量/数量 → 使用量
  • 零售总金额/总金额 → 使用金额
  • 国家编码/医保编码 → 医保编码
  • 药品编码 → 医院药品ID

数据处理特点

1. 智能表头检测系统

2. 数据清洗和转换

3. 容错处理机制

🏥科室结构识别

四级结构识别系统

系统采用先进的正则表达式和模式匹配算法,能够智能识别复杂的科室层级结构:

1. 四级结构识别模式

# 模式1:科室名+数字+后缀 (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区)$ # 模式2:科室名+数字(纯数字结尾) (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)科?$ # 模式3:科室名+英文字母+后缀 (.+?)([a-zA-Z])(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区|组)$ # 模式4:科室名+英文字母(纯字母结尾) (.+?)([a-zA-Z])$ # 模式5:科室名+数字+字母 (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)([A-Z])$

2. 识别示例

3. 白名单排除机制

以下科室即使匹配四级结构模式,也不会被识别为四级结构:

whitelist_depts = [ 'CT室', 'MRI室', 'DR室', 'DSA室', 'B超室', # 影像科室 'CT科', # CT科不要被判断为四级结构 '核医学科PET-CT', 'DMD多学科联合门诊', # 特殊科室 ]

科室ID分配规则

科室分组逻辑

🎯输出格式

输出文件结构

各工作表内容

1. 医院药品信息表

  • 数据来源:从药品使用信息数据中提取唯一药品信息
  • 列结构
    • A列:医保编码(从国家编码列复制)
    • B列:医院药品ID(从药品编码列复制)
    • C列:规格转换系数(默认为1)
    • D列:药品名称(从药品名称列复制)
    • E列:规格或规格x包装(从规格列复制)
    • F列:成本价格(元)(从单价列复制)

2. 药品使用信息表

  • 数据来源:聚合处理后的药品使用信息 + 科室ID映射
  • 列结构
    • A列:医保编码
    • B列:医院药品ID
    • C列:科室ID
    • D列:门诊住院
    • E列:院区名
    • F列:时间
    • G列:使用量
    • H列:使用金额

3. 科室信息表

  • 数据来源:科室结构识别 + 科室结构总表维护
  • 列结构:四级科室层级结构(包含单元格合并)
    • 一级结构ID、一级结构名称
    • 二级结构ID、二级结构名称
    • 三级结构ID、三级结构名称
    • 四级结构ID、四级结构名称
    • 门诊住院、院区名

4. 药费及人次汇总表

  • 数据来源:按科室汇总的药品使用金额
  • 列结构
    • A列:时间
    • B列:科室ID
    • C列:药费总额
    • D列:门诊住院
    • E列:院区名
    • F列:诊疗人次(默认为0)
    • G列:平均住院天数(默认为0)
    • H列:住院总人天数(默认为0)

🚀使用步骤

  1. 选择必需文件:选择1个药品使用信息Excel文件
  2. 配置可选文件:根据需要勾选并选择科室结构总表
  3. 选择通平台版本:在下拉框中选择1.4或1.5版本
  4. 设置时间参数:输入时间(格式:2025年9月)
  5. 设置输出位置:选择输出文件的保存位置和名称
  6. 开始处理:点击"开始处理数据"按钮
  7. 等待完成:查看处理进度和日志信息

⚠️注意事项

数据文件要求

  • 智能匹配优势:系统具有强大的智能表头匹配功能,对列名格式要求相对宽松
  • 必须列完整性:药品使用信息文件必须包含核心必须列(系统会自动识别列名变体)
  • 数据质量:确保数据的完整性和准确性,避免大量空值或异常数据
  • 编码一致性:确保药品编码和医保编码的一致性和准确性

系统使用注意

  • 处理期间:请勿关闭程序,系统会显示详细的处理进度
  • 内存要求:大数据量处理时确保内存充足
  • 日志监控:关注实时日志显示,了解智能匹配和处理状态
  • 错误处理:系统具有完善的容错机制,会自动处理常见的数据格式问题

输出特性

  • 科室高亮:新增科室在科室结构总表中自动标记为绿色高亮
  • ID格式保护:确保科室ID保持正确的前导零格式
  • 临时文件清理:处理完成后自动清理临时文件
  • 时间格式:Excel中时间显示为"2025年9月"格式

🆕东软版本特性

核心优势

单文件输入

只需要一个药品使用信息Excel文件即可完成所有处理

智能表头匹配

强大的自动表头检测和列名映射功能,适配各种数据格式

数据聚合处理

自动按科室和药品进行数据聚合,避免重复记录

智能医保编码处理

优先使用国家编码,自动处理医保编码映射

四级结构支持

完整支持复杂的医院科室层级结构

版本兼容性

支持通平台1.4和1.5版本的差异化处理

界面优化

处理优化

自动化功能


版本: 东软版本

更新时间: 2025年

开发说明: 东软版本是专门针对东软医院信息系统优化的数据处理工具,具有智能表头检测、单文件输入、数据聚合处理等核心优势。系统能够自动识别和处理各种格式的Excel文件,通过智能算法进行数据聚合和科室结构识别,大幅简化了用户的数据准备工作。特别适合使用东软HIS系统的医疗机构进行数据整理和上报工作。东软版本通过智能匹配、数据聚合和先进的算法技术,确保了数据处理的准确性、效率和易用性。