HRMS PDF数据处理

方法参考
https://github.com/kozlowski-lab/check-amm
Org. Lett. 2025, 27, 1, 1–3
Thank you, Dr. Liu Zhi, for your forward-looking vision.
Future Dr. Hongliang Chen developed this page.

未选择文件

上传进度:0%

HRMS 数据处理结果

共处理 0 条有效数据(已去重、计算偏差)
Formula Ion Calcd Mass Found Mass Recalcd Mass Dev(Calcd) (ppm) Dev(Recalcd) (ppm) Error
下载完整结果(Excel文件)

表格列含义说明

HRMS PDF处理器核心功能

  1. 定位指定文件夹中的所有PDF文件(支持批量处理)
  2. 从每个PDF中识别并提取所有精确质量数据(HRMS数据)
  3. 对每个实测离子,重新计算其理论精确质量(基于分子式)
  4. 计算实测质量、理论质量与校准后质量之间的偏差(单位:ppm)
  5. 对每个测量结果生成单行分析报告,突出显示异常偏差
  6. 针对数据内部不一致的情况,提供合理的解释或可行的修正方案
  7. 为所有分析文件生成汇总报告(支持Excel导出)

二、HRMS表格 Error 列错误描述与根本原因汇总

1. 基础计算错误:Error

错误描述:纯文本“Error”,无额外说明。

根本原因:

  • 分子式格式错误:PDF提取的分子式无法被 molmass.Formula 解析,如包含非法字符(例 C12H-O)、元素顺序混乱等。
  • 质量数据异常:从PDF提取的 Calcd Mass(理论质量)或计算出的 Recalcd Mass(校准后质量)不是有效浮点数,如包含字母(例 300.123a)、缺失小数点等。

2. 无分子式错误:No formula found

错误描述:“未找到分子式”,即 No formula found

根本原因:

PDF文本中该HRMS条目仅包含离子类型(Ion)和质量数据(Calcd MassFound Mass),但未包含可被正则 r'C\d+(?:H\d+|F\d+)(?:[A-Z][a-z]?\d*|\[\d+[A-Z][a-z]*\d*])*[+-]?' 匹配的分子式,可能因文本缺失分子式或分子式格式超出匹配范围。

3. 字符输入错误:Typo (Calcd,Found) / Typo (Calcd,Recalcd)

错误描述:

  • Typo (Calcd,Found):理论质量与实测质量存在单个字符差异(排除最后两位)。
  • Typo (Calcd,Recalcd):理论质量与校准后质量存在单个字符差异(排除最后两位)。

根本原因:

PDF文本中质量数据存在输入错误(如人工录入时多输/少输一个数字)或OCR识别错误(如将 3 识别为 5),导致质量数据仅单个字符偏差(例 300.1234 vs 300.1254)。

4. 数字颠倒错误:Transposed digits (Calcd,Found) / Transposed digits (Calcd,Recalcd)

错误描述:

  • Transposed digits (Calcd,Found):理论质量与实测质量存在相邻数字颠倒。
  • Transposed digits (Calcd,Recalcd):理论质量与校准后质量存在相邻数字颠倒。

根本原因:

PDF文本中质量数据存在“相邻数字颠倒”的输入错误(如将 1234 写成 1324)或OCR识别时将相邻数字混淆(如 23 位置颠倒),导致质量数据仅相邻数字偏差(例 300.1234 vs 300.1324)。

5. 电荷计算错误:Mass was calculated for cation

错误描述:“质量是按阳离子计算的,实际为阴离子”,即 Mass was calculated for cation

根本原因:

计算 Recalcd Mass(校准后质量)时,代码默认按阳离子(电荷为正)处理,但实际离子为阴离子(如 ion_charge == "-" 或离子类型含 M-,例 [M-H]-),导致质量偏差约一个电子质量(阴离子需加电子质量,阳离子需减电子质量,电荷判断错误引发偏差)。

6. 分子量类型错误:Molecular weight error 及其变体

错误描述:

  • Molecular weight error:理论质量等于“带电荷分子式的分子量”(未除以电荷数)。
  • Molecular weight error (neutral):理论质量等于“中性分子式的分子量”(未加/减电荷对应的质量)。
  • Molecular weight error (neutral+1):理论质量等于“中性分子式分子量+1”(可能误加 13C 同位素质量)。
  • Molecular weight error (neutral+23):理论质量等于“中性分子式分子量+23”(可能误加钠元素质量 22.98977)。
  • Molecular weight error (Formula+Na):理论质量等于“原分子式加钠的分子量”(可能误将钠离子峰按分子峰计算)。

根本原因:

PDF中的 Calcd Mass(理论质量)计算逻辑与代码预期不符:代码预期理论质量是“离子的精确质量”(需除以电荷数,例 [M+Na]+ 需用分子质量+钠质量后除以1),但实际PDF中的理论质量是“分子的分子量”(未处理电荷或额外元素,例直接用分子质量作为 [M+Na]+ 的理论质量)。

7. 元素增减错误:Add X Y to formula / Remove X Y from formula

错误描述:

  • Add X Y to formula:需给分子式添加 X 个 Y 元素(例 Add 1 H-atom to formula)。
  • Remove X Y from formula:需从分子式移除 X 个 Y 元素(例 Remove 2 O-atoms from formula)。

根本原因:

PDF中提取的分子式与实际离子的分子式存在“元素数量差异”:

  • 例1:实际离子为 [M+H]+,但提取的分子式为 C12H24O(少1个H),导致校准质量偏小,误差为正,提示添加元素。
  • 例2:实际离子为 [M-O]+,但提取的分子式为 C12H24O2(多1个O),导致校准质量偏大,误差为负,提示移除元素。

8. 特殊偏差错误:直接显示偏差值(例 +0.0052)

错误描述:+/- 开头的浮点数(保留4位小数),例 +0.0052-0.0031

根本原因:

误差来源不属于上述任何已知类型,可能原因包括:

  • PDF中理论质量存在未知偏差(如人工计算错误)。
  • 代码的 error_dictionary 未包含该偏差对应的元素或特殊情况(例未添加某元素的同位素质量)。