📋通平台数据处理工具说明文档(东软-王琳版本)

📋 目录导航

📋工具概述

通平台数据处理工具(东软版本)是一个专业的医疗数据标准化处理系统,专门针对东软医院信息系统的数据格式进行优化。该工具能够将单一的药品使用信息Excel文件转换为标准化的目标表格,支持复杂的科室结构识别和医保编码处理。本版本采用智能表头检测和数据聚合处理技术,具有强大的适应性和灵活性。

🔧核心特性

双文件输入模式

东软-王琳版本支持两个文件输入模式:

主要模式:双文件输入

  • 药品目录表:包含药品基础信息的Excel文件
  • 科室使用信息表:包含科室药品使用记录的Excel文件

🔧功能特点

1. 核心功能

2. 高级特性

智能表头检测

自动识别和适配不同格式的Excel表头结构

数据聚合处理

将药品目录和科室使用信息合并生成标准化数据,然后自动按科室+药品编码进行聚类,累加使用量和金额

动态科室结构识别

支持四级科室结构的智能识别和分类

科室结构总表维护

自动维护桌面科室结构总表,确保科室ID一致性

智能医保编码处理

自动识别和处理医保编码信息

前导零格式保护

确保科室ID保持正确格式(如029000而非29000.0)

新增科室高亮

新增科室在总表中自动标记为绿色高亮

临时文件自动清理

处理完成后自动清理临时文件

3. 用户界面特性

📁数据要求

必需文件(2个)

  1. 医院药品目录
    • 格式:Excel文件(.xlsx/.xls)
    • 包含完整的药品数据
    • 支持智能表头检测,自动适配不同的列名格式
  2. 药品使用信息
    • 格式:Excel文件(.xlsx/.xls)
    • 包含完整的药品使用详细数据
    • 支持智能表头检测,自动适配不同的列名格式

可选文件(1个)

  1. 科室结构总表
    • 自定义科室结构,不选择时使用桌面默认表

📁输入数据要求

必需文件

1. 药品目录表 (Excel格式)

必需列及要求

列名 数据类型 说明 示例
编码 字符串 药品唯一标识,用于与科室使用信息匹配 "A001", "B002"
药品名称 字符串 药品的完整名称 "阿司匹林肠溶片"
规格 字符串 药品规格描述 "100mg*30片"
零售价 数值 药品零售价格(元) 15.50
生产厂家 字符串 药品生产厂家信息 "拜耳医药有限公司"
购入价 数值 医院购入价格(元) 12.80
医保编码 字符串 国家医保编码 "XJ01CR02"

数据格式要求:

  • 文件格式:Excel (.xlsx 或 .xls)
  • 编码列不能有重复值
  • 数值列必须为有效数字
  • 字符串列不能全为空

2. 科室使用信息表 (Excel格式)

必需列及要求

列名 数据类型 说明 示例
绩效科室 字符串 科室名称,用于科室结构识别 "心内科一病房", "妇科A组门诊"
收费项目 字符串 对应药品目录的编码 "A001", "B002"
数量 数值 使用数量 50, 120
金额 数值 使用金额(元) 775.00, 1536.00

数据格式要求:

  • 文件格式:Excel (.xlsx 或 .xls)
  • 收费项目必须在药品目录表中存在
  • 数量和金额必须为正数
  • 同一科室同一药品可以有多条记录(系统会自动聚合)

数据聚合逻辑

系统会按照科室+药品编码进行数据聚合:

  • 求和字段:使用量
  • 保留字段:其他所有字段保留第一个值
  • 重新计算:聚合后重新计算总金额 = 使用量 × 单价

输出列名映射

原始列名会自动映射为标准化列名:

  • 领药科室/科室名称 → 科室名称
  • 药品编码/药品代码 → 药品编码
  • 发生数量/数量 → 使用量
  • 零售总金额/总金额 → 使用金额
  • 国家编码/医保编码 → 医保编码
  • 药品编码 → 医院药品ID

数据处理特点

1. 智能表头检测系统

2. 数据清洗和转换

3. 容错处理机制

🏥科室结构识别

四级结构识别系统

系统采用先进的正则表达式和模式匹配算法,能够智能识别复杂的科室层级结构:

1. 四级结构识别模式

# 模式1:科室名+数字+后缀 (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区)$ # 模式2:科室名+数字(纯数字结尾) (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)科?$ # 模式3:科室名+英文字母+后缀 (.+?)([a-zA-Z])(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区|组)$ # 模式4:科室名+英文字母(纯字母结尾) (.+?)([a-zA-Z])$ # 模式5:科室名+数字+字母 (.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)([A-Z])$

2. 识别示例

3. 白名单排除机制

以下科室即使匹配四级结构模式,也不会被识别为四级结构:

whitelist_depts = [ 'CT室', 'MRI室', 'DR室', 'DSA室', 'B超室', # 影像科室 'CT科', # CT科不要被判断为四级结构 '核医学科PET-CT', 'DMD多学科联合门诊', # 特殊科室 ]

科室ID分配规则

科室分组逻辑

🎯输出格式

输出文件结构

各工作表内容

1. 医院药品信息表

  • 数据来源:从药品使用信息数据中提取唯一药品信息
  • 列结构
    • A列:医保编码(从国家编码列复制)
    • B列:医院药品ID(从药品编码列复制)
    • C列:规格转换系数(默认为1)
    • D列:药品名称(从药品名称列复制)
    • E列:规格或规格x包装(从规格列复制)
    • F列:成本价格(元)(从单价列复制)

2. 药品使用信息表

  • 数据来源:聚合处理后的药品使用信息 + 科室ID映射
  • 列结构
    • A列:医保编码
    • B列:医院药品ID
    • C列:科室ID
    • D列:门诊住院
    • E列:院区名
    • F列:时间
    • G列:使用量
    • H列:使用金额

3. 科室信息表

  • 数据来源:科室结构识别 + 科室结构总表维护
  • 列结构:四级科室层级结构(包含单元格合并)
    • 一级结构ID、一级结构名称
    • 二级结构ID、二级结构名称
    • 三级结构ID、三级结构名称
    • 四级结构ID、四级结构名称
    • 门诊住院、院区名

4. 药费及人次汇总表

  • 数据来源:按科室汇总的药品使用金额
  • 列结构
    • A列:时间
    • B列:科室ID
    • C列:药费总额
    • D列:门诊住院
    • E列:院区名
    • F列:诊疗人次(默认为0)
    • G列:平均住院天数(默认为0)
    • H列:住院总人天数(默认为0)

🚀使用步骤

  1. 选择必需文件:选择1个药品使用信息Excel文件
  2. 配置可选文件:根据需要勾选并选择科室结构总表
  3. 选择通平台版本:在下拉框中选择1.4或1.5版本
  4. 设置时间参数:输入时间(格式:2025年9月)
  5. 设置输出位置:选择输出文件的保存位置和名称
  6. 开始处理:点击"开始处理数据"按钮
  7. 等待完成:查看处理进度和日志信息

⚠️注意事项

数据文件要求

  • 智能匹配优势:系统具有强大的智能表头匹配功能,对列名格式要求相对宽松
  • 必须列完整性:药品使用信息文件必须包含核心必须列(系统会自动识别列名变体)
  • 数据质量:确保数据的完整性和准确性,避免大量空值或异常数据
  • 编码一致性:确保药品编码和医保编码的一致性和准确性

系统使用注意

  • 处理期间:请勿关闭程序,系统会显示详细的处理进度
  • 内存要求:大数据量处理时确保内存充足
  • 日志监控:关注实时日志显示,了解智能匹配和处理状态
  • 错误处理:系统具有完善的容错机制,会自动处理常见的数据格式问题

输出特性

  • 科室高亮:新增科室在科室结构总表中自动标记为绿色高亮
  • ID格式保护:确保科室ID保持正确的前导零格式
  • 临时文件清理:处理完成后自动清理临时文件
  • 时间格式:Excel中时间显示为"2025年9月"格式

🆕东软版本特性

核心优势

单文件输入

只需要一个药品使用信息Excel文件即可完成所有处理

智能表头匹配

强大的自动表头检测和列名映射功能,适配各种数据格式

数据聚合处理

自动按科室和药品进行数据聚合,避免重复记录

智能医保编码处理

优先使用国家编码,自动处理医保编码映射

四级结构支持

完整支持复杂的医院科室层级结构

版本兼容性

支持通平台1.4和1.5版本的差异化处理

界面优化

处理优化

自动化功能


版本: 东软版本

更新时间: 2025年

开发说明: 东软版本是专门针对东软医院信息系统优化的数据处理工具,具有智能表头检测、单文件输入、数据聚合处理等核心优势。系统能够自动识别和处理各种格式的Excel文件,通过智能算法进行数据聚合和科室结构识别,大幅简化了用户的数据准备工作。特别适合使用东软HIS系统的医疗机构进行数据整理和上报工作。东软版本通过智能匹配、数据聚合和先进的算法技术,确保了数据处理的准确性、效率和易用性。