📋通平台数据处理工具说明文档-东华

📋 目录导航

工具概述
功能特点
数据要求
数据格式要求
科室结构识别
输出格式
使用步骤
注意事项

📋工具概述

通平台数据处理工具-东华是一个专业的医疗数据标准化处理系统，能够将多个医疗相关的Excel文件转换为标准化的目标表格，支持复杂的科室结构识别和医保编码匹配。本版本采用前置数据聚合处理和动态科室结构识别算法，具有强大的适应性和灵活性。

🔧功能特点

1. 核心功能

医疗数据标准化处理：将多个医疗相关Excel文件转换为标准化的目标表格
四工作表输出：生成包含4个工作表的Excel文件
- 医院药品信息表
- 药品使用信息表
- 科室信息表（支持四级结构）
- 药费及人次汇总表

2. 高级特性

前置数据聚合处理

自动合并门诊和住院药品使用信息，按科室+药品编码进行聚类

动态科室结构识别

支持四级科室结构的智能识别和分类

科室结构总表维护

自动维护桌面科室结构总表，确保科室ID一致性

智能医保编码匹配

通过多种算法精确匹配医保编码

新增科室高亮

新增科室在总表中自动标记为绿色高亮

临时文件自动清理

处理完成后自动清理临时文件

3. 用户界面特性

图形化界面：友好GUI界面，集成Logo显示
实时日志显示：处理过程实时显示详细日志
进度条显示：可视化处理进度
文件自动检测：智能查找和识别数据文件
版本选择支持：支持通平台1.4、1.5和1.6版本切换

📁数据要求

必需文件（5个）

门诊药品使用信息
- 格式：Excel文件（.xlsx/.xls）
- 包含门诊科室药品使用详细数据
住院药品使用信息
- 格式：Excel文件（.xlsx/.xls）
- 包含住院科室药品使用详细数据
门急诊统计数据表
- 格式：Excel文件
- 包含门诊患者统计数据
住出院统计数据表
- 格式：Excel文件
- 包含住院患者统计数据
医保编码对应关系
- 格式：Excel文件
- 用于医保编码映射和药品信息匹配

可选文件（1个）

科室结构总表
- 自定义科室结构，不选择时使用桌面默认表

📊数据格式要求

门诊/住院药品使用信息必须列

这两个文件是系统的核心输入数据，系统支持智能表头匹配，会自动识别和映射列名。

智能表头匹配特性

系统具有强大的自动表头识别功能：

自动跳行检测：系统会自动匹配表头
智能列名匹配：自动识别包含特殊字符（如换行符\n、空格）的列名
容错处理：支持列名的变体形式，如"基本单位数量"、"基本单位\n数量"等
自动映射：将原始列名自动映射为标准化的列名

必须列说明（支持智能匹配）

系统会自动识别以下列名及其变体：

列名	说明	智能匹配示例
药品代码	院内药品唯一标识码	药品代码、药品编码、药品id
医生科室	开药科室名称	医生科室、科室名称、科室
基本单位\n数量	药品使用的基本单位数量（支持聚合求和）	基本单位\n数量、基本单位数量、数量
售价金额	药品售价总金额（支持聚合求和）	售价金额、总金额、金额
进价金额	药品进价总金额（保留第一个值）	进价金额
药品名称	药品完整名称	药品名称
基本单位	药品基本计量单位	基本单位
售价	药品单价	售价
入库单位\n数量	入库单位数量	入库单位\n数量、入库单位数量
入库单位	入库单位（注意原始列名可能带空格）	入库单位、入库单位
进价	药品进价	进价
厂家	生产厂家信息	厂家
供应商	供应商信息	供应商
批准文号	药品批准文号	批准文号

数据聚合逻辑

系统会按照科室+药品代码进行数据聚合：

求和字段

基本单位\n数量、售价金额

保留字段

其他所有字段保留第一个值

输出列名映射

药品代码 → 药品编码
基本单位\n数量 → 使用量
医生科室 → 科室名称
基本单位 → 规格
售价 → 单价
售价金额 → 使用金额

医保编码对应关系必须列

医保编码对应关系表用于建立医院药品ID与国家医保编码的映射关系，系统支持智能表头匹配，会自动识别和映射列名。

必须列说明（支持智能匹配）

系统会自动识别以下列名及其变体：

列名	说明	是否严格匹配列名
代码	医院药品ID	否
国家医保编码	药品医保编码	否
名称	药品名称	否
规格	药品规格	否

数据格式说明

重要提示：医保编码对应关系表的数据格式要求如下：

第一行：表头列名（系统会自动识别）
第二行：合计数据行（系统会自动跳过）
第三行及以后：真正的详情数据（系统处理的有效数据）

医保编码对应关系

智能表头检测功能

系统具有强大的智能表头检测功能，能够自动识别真正的列名行：

多行检测：自动检查前10行，寻找最佳的列名行
关键词匹配：通过关键词组合进行智能匹配
- 医保编码相关：医保编码、编码
- 药品编码相关：院内药品唯一码、药品唯一码、药品编码、唯一码
- 药品名称相关：产品名称、药品名称、名称
- 规格相关：制剂规格、规格
评分机制：根据匹配的关键词数量和有效列数进行评分
容错处理：如果智能检测失败，会回退到传统的跳行方式

标准格式（支持智能识别）

系统会自动识别以下列名及其变体：

代码

医院药品ID（院内药品唯一码）

智能匹配：代码、医院药品ID、院内药品唯一码、药品唯一码等

名称

药品名称（产品名称）

智能匹配：名称、产品名称、药品名称、通用名等

国家医保编码

医保编码

智能匹配：国家医保编码、医保编码、统一编码、国家编码、编码等

规格

规格转换系数（默认设置为1）

智能匹配：规格、制剂规格、包装规格、药品规格等

列名重命名规则

系统会自动进行以下列名重命名：

代码 → 医院药品ID
国家医保编码 → 医保编码
规格 → 规格转换系数

数据处理特点

智能表头检测：自动识别真正的列名行位置
回退机制：如果智能检测失败，会尝试多种跳行方式
规格转换系数：默认设置为1
医保编码匹配：用于与药品使用信息中的药品编码进行匹配，获取医保编码

门急诊/住出院统计数据表

这两个文件用于生成药费及人次汇总表，包含科室统计信息：

科室名称
门诊/住院人次统计
相关费用统计

住院数据表必须列

住院数据表用于统计住院科室的相关数据，系统要求严格匹配列名，不支持智能匹配。

必须列说明（严格匹配）

系统要求严格匹配以下列名：

列名	说明	匹配要求
科室	科室名称	严格匹配"科室"
总计	科室住出院的总计数据	严格匹配"总计"
出院者平均住院日	出院者平均住院日	严格匹配"出院者平均住院日"

门诊数据表必须列

门诊数据表用于统计门诊科室的相关数据，系统要求严格匹配列名，不支持智能匹配。

必须列说明（严格匹配）

系统要求严格匹配以下列名：

列名	说明	匹配要求
科室名称	科室名称	严格匹配"科室名称"
合计	科室的全部门诊人次数据	严格匹配"合计"

🏥科室结构识别

四级结构识别系统

系统采用先进的正则表达式和模式匹配算法，能够智能识别复杂的科室层级结构：

1. 四级结构识别模式

# 模式1：科室名+数字+后缀
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区)$

# 模式2：科室名+数字（纯数字结尾）
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)科?$

# 模式3：科室名+英文字母+后缀
(.+?)([a-zA-Z])(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区|组)$

# 模式4：科室名+英文字母（纯字母结尾）
(.+?)([a-zA-Z])$

# 模式5：科室名+数字+字母
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)([A-Z])$

2. 识别示例

心内科一病房

基础科室：心内科
子单元：一病房
类型：住院

外科二区

基础科室：外科
子单元：二区
类型：住院

儿科1科

基础科室：儿科
子单元：1科
类型：住院

妇科A组门诊

基础科室：妇科
子单元：A组
类型：门诊

肾内科a区

基础科室：肾内科
子单元：a区
类型：住院

3. 白名单排除机制

以下科室即使匹配四级结构模式，也不会被识别为四级结构：

whitelist_depts = [
    'CT室', 'MRI室', 'DR室', 'DSA室', 'B超室',  # 影像科室
    'CT科',  # CT科不要被判断为四级结构
    '核医学科PET-CT', 'DMD多学科联合门诊',  # 特殊科室
]

科室ID分配规则

一级结构：全院合计 (ID: 01)
二级结构：基础科室或科室组 (ID: 001, 002, ...)
三级结构：具体科室类型 (ID: 0010, 0011, ...)
四级结构：科室子单元 (ID: 00101, 00102, ...)

科室分组逻辑

混合科室：同时有门诊和住院的基础科室保持独立二级结构
其他门诊：仅有门诊的科室归入"其他门诊"二级结构
其他住院：仅有住院的科室归入"其他住院"二级结构
其他病房：仅有四级结构住院科室的基础科室归入"其他病房"二级结构

🎯输出格式

输出文件结构

文件格式：Excel文件（.xlsx）
工作表数量：4个
默认保存位置：输入数据文件所在目录
文件命名：目标表格_时间戳.xlsx

各工作表内容

1. 医院药品信息表

数据来源：长治市人民医院药品目录 + 药品使用信息匹配

列	内容	说明
A列	医保编码	国家医保编码
B列	医院药品ID	院内药品唯一码
C列	规格转换系数	默认为1
D列	药品名称	产品名称
E列	规格或规格x包装	制剂规格
F列	成本价格(元)	药品成本价格

2. 药品使用信息表

数据来源：聚合处理后的药品使用信息 + 医保编码匹配

列	内容	说明
A列	医保编码	国家医保编码
B列	医院药品ID	院内药品唯一码
C列	科室ID	四级科室ID
D列	门诊住院	科室类型
E列	院区名	院区信息
F列	时间	数据时间
G列	使用量	聚合后的基本单位数量
H列	使用金额	聚合后的售价金额

3. 科室信息表

数据来源：科室结构识别 + 科室结构总表维护

列结构：四级科室层级结构（包含单元格合并）

一级结构ID、一级结构名称
二级结构ID、二级结构名称
三级结构ID、三级结构名称
四级结构ID、四级结构名称
门诊住院、院区名

4. 药费及人次汇总表

数据来源：药品使用信息 + 门急诊/住出院统计数据

内容：按科室汇总的费用和人次统计

🚀使用步骤

选择必需文件：选择5个必需的Excel文件
- 门诊药品使用信息
- 住院药品使用信息
- 门急诊统计数据表
- 住出院统计数据表
- 长治市人民医院药品目录
配置可选文件：根据需要勾选并选择科室结构总表
选择通平台版本：在下拉框中选择1.4或1.5版本
设置时间参数：输入时间（格式：2025年9月）
设置输出位置：选择输出文件的保存位置和名称
开始处理：点击"开始处理数据"按钮
等待完成：查看处理进度和日志信息

⚠️注意事项

数据文件要求

智能匹配优势：系统具有强大的智能表头匹配功能，对列名格式要求相对宽松
必须列完整性：门诊和住院药品使用信息文件必须包含核心必须列（系统会自动识别列名变体）
数据行位置：门诊/住院药品使用信息跳过前2行，药品目录支持智能表头检测
编码一致性：长治市人民医院药品目录用于医保编码匹配，确保药品编码一致性

系统使用注意

处理期间：请勿关闭程序，系统会显示详细的处理进度
内存要求：大数据量处理时确保内存充足
日志监控：关注实时日志显示，了解智能匹配和处理状态
错误处理：系统具有完善的容错机制，会自动处理常见的数据格式问题

输出特性

科室高亮：新增科室在科室结构总表中自动标记为绿色高亮
ID格式保护：确保科室ID保持正确的前导零格式
临时文件清理：处理完成后自动清理临时文件

版本: 东华系统版本

更新时间: 2025年

开发说明: 这个工具基于智能表头匹配、前置数据聚合和动态科室结构识别的医疗数据处理系统，具有强大的数据标准化和格式转换能力。系统的核心优势在于智能表头检测功能，能够自动识别和处理各种格式的Excel文件，大幅降低了用户的数据准备工作量。特别适合需要处理分离的门诊住院药品使用数据并进行复杂科室结构分析的医疗机构进行数据整理和上报工作。新版本通过智能匹配、前置聚合处理和先进的算法技术，确保了数据处理的准确性和灵活性。