使用Cocktail Shaker,RDKit和Pandas在5分钟内生成化学

类别:行业新闻    发布时间:2020-04-10 09:19

from peptide_builder import PeptideBuilderfrom functional_group_enumerator import Cocktailimport pandas as pd

natural_amino_acids = [C, CCCNC(N)=N, CCC(N)=O, CC(O)=O,CS, CCC(O)=O, CCC(O)=O, CCC(N)=O,[H], CC1=CNC=N1, C(CC)([H])C, CC(C)C,CCCCN, CCSC, CC1=CC=CC=C1, CO,C(C)([H])O, CCC1=CNC2=C1C=CC=C2,CC1=CC=C(O)C=C1, C(C)C]

smiles为一维化合物表示,氨基酸为侧链的字符串表示。amino_acid列将充当数据的“标签”。

cocktail = Cocktail(peptide_backbone=peptide_molecule,ligand_library=[amino_acid],enable_isomers=False)

接下来,我们想要数据的所有表示,因为最终它将生成各种2D坐标。众所周知,在卷积神经网络社区中,对相同数据的多种描述有助于神经网络的训练和准确性。

molecules = cocktail.enumerate(dimensionality='1D', enumeration_complexity='high')

Cocktail对象将保留您之前生成的组合,这里我们设置dimensionality='1D',我们希望获得尽可能多的不同表示,enumeration_complexity='high'。

dataframe = pd.DataFrame(molecules, columns=[smiles])dataframe[amino_acid] = amino_acidroot_dataframe = pd.concat([root_dataframe, dataframe])