1. 程式人生 > 資料庫 >RDKit | 從ChEMBL資料庫提取大分子HELM單體(XML轉換為DataFrame並搜尋部分結構)

RDKit | 從ChEMBL資料庫提取大分子HELM單體(XML轉換為DataFrame並搜尋部分結構)

研究大分子的HELM表示。HELM具有分層結構,並結合了單體來代表聚合物(例如肽)。

HELM的特徵是其表達的可擴充套件性,還可以通過將原始單體新增到單體庫中來表達不自然的結構。

另一方面,由於HELM表示式使用縮寫(ID),所以如果不共享單體庫,則存在指定具有相同ID的不同單體的風險,因此瞭解單體庫很重要。

找出什麼樣的單體資訊儲存在,這是HELM也處理的熟悉的資料庫。

具體旨在讀取檔案中提供的單體庫,並將其轉換為Pandas DataFrame。

匯入庫

import xml.etree.ElementTree as ET

tree = ET.parse('chembl_27_monomer_library.xml')
root = tree.getroo