链霉菌MY0504纤溶酶YG4基因的克隆
及生物信息学分析
樊丹,马萱,麻云莲,李亚璞,董超,史延茂,张小兵
(1. 河北工业大学 化工学院生物工程系,天津 300130;2. 河北省科学院生物研究所,河北 石家庄 050081)
摘 要 :【目的】获得海洋链霉菌MY0504纤溶酶YG4基因,并对其进行生物信息学分析。【方法】提取链霉菌MY0504的基因组DNA,设计兼并引物对其进行PCR扩增,将得到的DNA片段连接到pMD18-T载体后转化感受态Trans10,然后对阳性克隆进行测序,并对序列进行生物信息学分析。 【结论】克隆了海洋链霉菌MY0504纤溶酶YG4基因,该基因编码360个氨基酸,其编码产物为稳定的亲水蛋白,无信号肽和跨膜结构域,有40个磷酸化位点,高级结构以无规则卷曲为主。
关键词 :海洋链霉菌;纤溶酶;基因克隆;生物信息学
Cloning and bioinformatics analysis of fibrinolytic enzyme YG4 gene from Streptomyces sp. MY0504
FAN Dan,MA Xuan,MA Yun Lian, LI Ya-pu, DONG Chao
SHI Yan-mao, ZHANG Xiao-bing
(1. College of Chemistry and Engineering,Hebei University of Technology,Tianjin 300130,China;2. Institute of Biology,Hebei Academy of Sciences,Shijiazhuang 050081,China)
Abstract : [Objective] To clone a fibrinolytic enzyme YG4 gene from Streptomyces sp. MY0504 and analyze it by Bioinformatics. [Methods ] The genomic DNA of Streptomyces sp. MY0504 was extracted, and degenerate primers were designed to amplify it by PCR. The DNA fragment was ligated to the pMD18-T vector and transformed into Trans10, and then the positive clones were sequenced. The sequence was analyzed by Bioinformatics. [Conclusion ] The fibrinolytic enzyme YG4 gene of Streptomyces sp. MY0504 was cloned. The gene encodes 360 amino acids, and the encoding product is stable hydrophilic protein. The hydrophilic protein has no signal peptide and transmembrane domain, and has 40 phosphorylation site, and the advanced structure is dominated by irregular curling.
Key words: marine Streptomyces;fibrinolytic enzyme;gene cloning;bioinformatics
△基金项目:河北省科学院科技计划项目(15303、16303、17303)
作者简介:樊丹(1992-),女,硕士研究生。研究方向:发酵工程与生物分离工程
※通讯作者:史延茂,男,E-mail:yanmaosh@163.com。张小兵,男,Tel:0311-83014602,E-mail:zhangxiaobing9@126.com
收稿日期:
心脑血管疾病严重危害人类健康,以其高发病率、高致残率、高死亡率,给家庭、社会和国家都带来极其严重的精神压力和经济负担,血栓栓塞症是其主要一类[1]。溶栓治疗是抢救与治疗此类疾病的常用手段,但目前临床上使用的尿激酶、蚓激酶以及组织型纤溶酶原激活剂等均有不少缺陷,容易导致出血倾向,价格较贵,半衰期短,口服无效,而开发新型高效无副作用的溶栓制剂迫在眉睫[2, 3]。
随着海洋空间的开发,海洋技术手段的发展,海洋微生物日益成为研究的焦点[4, 5],而放线菌早已被证实能产生种类繁多的活性物质,因此,海洋来源放线菌逐渐成为生产新的天然产物的最具潜力的类群,其产生的代谢物质很可能更加符合人类对有效药物的需求[6, 7]。链霉菌分泌多种蛋白水解酶,其中相当一部分属于丝氨酸蛋白酶,而人血液中的纤溶酶及纤溶酶原激活剂也均属于丝氨酸蛋白酶[8, 9]。因此,对该种菌产生的活性物质研究具有重要的现实意义,利用链霉菌产生的新型纤溶酶制备溶栓药物,亦是一种新的尝试。本研究基于以前的研究结果[10-12],克隆了链霉菌MY0504的纤溶酶YG4基因(以下简称MY-YG4),再借助相关生物信息学知识及相关软件,分析预测该基因编码蛋白的理化性质、结构、功能等,以期为后续该基因的功能研究奠定基础。
1 材料与方法
1.1 材料
1.1.1 菌株与质粒
菌株 MY0504,由本实验室自渤海海域海水中分离,菌株已保藏在中国微 生 物 菌 种 保 藏 管 理 委 员 会 普 通 微 生 物 中 心(CGMCC),保藏编号 No. 10664。pMD18-T 载体购TaKaRa公司。
1.1.2 培养基
LB培养基(g/L):胰蛋白胨10 g,酵母抽提物5 g,氯化钠10 g。
1.1.3 实验仪器
恒温振荡器(上海苏坤设备有限公司);TC-96/G/H(b)C型基因扩增仪器(杭州博日科技有限公司);VS-1300L-U洁净工作台(苏净安泰);H2O3-PRO Ⅲ 加热制冷型金属浴(卡尤迪生物科技);DYY-7C型电泳仪(北京市六一仪器厂);FE28 PH计(梅特勒-托利多仪器(上海)有限公司)。
1.2 方法
1.2.1 菌株的培养与基因组DNA提取
挑取斜面菌体接种于液体LB培养基中,于37℃ 200 r/min摇床培养48 h。DNA的提取采用TIANGEN科技有限公司的“细菌基因组DNA提取试剂盒”[13]。
1.2.2 PCR扩增
据北京蛋白质中心所测得的蛋白质氨基酸序列信息(表1),在UniProt网站搜索获得相关纤溶酶的氨基酸序列,根据氨基酸序列检索到相应的基因CDS区序列;通过比对所获得CDS区序列,进行全序列相似性分析,在相似性高的基因位置设计引物,并以 Prime Primer 5.0软件和DNAMAN软件辅助设计简并引物[14](表2)。以基因组DNA为模板,PCR扩增条件为:94℃预变性5 min,94℃变性45 s,退火温度53℃退火35 s,72℃延伸1 min,32个循环后,72℃延伸8 min,4℃保存。
Table 1 The result of protein sequencing
登录号 |
描述 |
得分 |
A0A0D6WUN7 |
Streptogrisin OS=Streptomyces sp. MBRL 601 GN=SF12_07495 PE=4 SV=1 - [A0A0D6WUN7_9ACTN] |
1143.41 |
A0A0S1UK64 |
Serine protease OS=Streptomyces sp. FR-008 GN=SFR_2227 PE=3 SV=1 - [A0A0S1UK64_9ACTN] |
689.23 |
A0A0S1UHF4 |
Peptidase M28 OS=Streptomyces sp. FR-008 GN=SFR_1292 PE=4 SV=1 - [A0A0S1UHF4_9ACTN] |
200.33 |
表2 PCR引物序列
Table 2 Nucleotide sequences of PCR primers
Primer |
Primer sequences( 5'- 3') |
Pla-BamhⅠ-F Pla-XhoⅠ-R |
GGATCCGTGAACCACCGACGCATACCCAAGC CTCGAGTCAGCCGATCTCGACGCCGTACGCG |
下划线为酶切位点BamHⅠ (GGATCC) 和 XhoⅠ (CTCGAG)
Restriction enzyme sites of BamHⅠ (GGATCC) and XhoⅠ (CTCGAG) were underlined.
1.2.3 序列测定
扩增产物经1%琼脂糖凝胶电泳检测,将与预期结果大小相符的PCR扩增片段回收,回收片段与克隆载体pMD18-T连接,16℃过夜连接,转化Trans10感受态细胞,进行菌液PCR验证,阳性样品送北京华大基因测序。
1.2.4 生物信息学分析
通过NCBI的ORF finder及DNAMAN对基因的ORF及氨基酸序列进行预测;通过Ex PASy 数据库 ( http://www.Expasy.org/ ) 提供的 Prot Param在线程序,预测该基因编码蛋白的氨基酸组成、等电点、正/负电荷残基数、原子总数、摩尔消光系数、半衰期、不稳定指数、脂肪族氨基酸指数、总平均亲水性等;通过Prot Scale软件预测疏水性。通过CBS Prediction Servers数据库( http://www.cbs.dtu.dk/services/ ) 提供的Signal P 4.1 Server[15, 16]在线程序,判断是否存在信号肽;通过TMHMM Server v. 2.0[17]软件,预测跨膜结构区域;通过Protfun 2.2 Server软件,预测编码蛋白的功能分类。利用 NetPhos 3.1 Server 软件对该基因编码的蛋白磷酸化位点进行预测和分析。通过Predict Protein软件( https://www.predictprotein.org/ ) ,预测蛋白质的二级结构。应用 NCBI conserved domains(http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)预测蛋白结构域。通过 SWISS-MODEL[23],对该编码蛋白的三维结构进行同源建模。
2 结果与分析
2.1 YG4 基因克隆
根据NCBI网站检索到的纤溶酶序列,预计Streptomyces sp. MY0504纤溶酶YG4基因的大小为900-1,200 bp。通过“细菌基因组DNA提取试剂盒”提取链霉菌基因组DNA,经Nanodrop和电泳检测,表明所提取的DNA质量较高,可用于目的基因扩增的模板制备。应用Pla-BamHⅠ-F上游引物及Pla-XhoⅠ-R下游引物,进行YG4基因扩增,获得1083 bp的特异性条带(图1), 经 PCR鉴定的阳性菌送至北京华大进行测序。测序结果表明: 扩增出的YG4基因与 Gen Bank 上发表的丝氨酸蛋白酶基因比较,碱基序列同源性 100% 。经 1% 琼脂糖凝胶电泳检测,与预期大小一致。
图1 YG4基因的扩增
注:M:Trans 2K DNA Marker ,1-4:PCR 产物
Fig.1 YG4 amplification
Note:M:Trans 2K DNA Marker,1-4:PCR products
拼接阳性克隆的测序结果,最终所获序列如下:
2.2 16S rDNA 鉴定亲缘关系
用通用引物27 F和1492 R、1525 R,扩增链霉菌MY0504的16S rDNA(图2)。扩增片段大小为1,500 bp左右,无明显杂带、拖带现象。
Fig.2 Electrophoretogram of Streptomycete sp. MY0504 16S rDNA gene
M. DNA Marker:trans 5K;1 ~ 2. 引物27F-1492R;3 ~ 4. 引物27F-1525R
扩增获得的16S rDNA序列如下:
将获得的16S rDNA序列,提交NCBI数据库(https://submit.ncbi.nlm.nih.gov/subs/genbank/),获得登录号:MG203935。用所获得的16S rDNA序列,在NCBI和EzBioCloud网站Blast,应用MEGA(MEGA 5.1)软件进行分子进化遗传分析,Neighbor-Joining法完成分子系统学分析,同时进行1000次bootstrap统计学检验,构建系统发育树(图3),展示细菌的遗传多样性和菌株间的亲缘关系[18]。结果表明,该菌株与达格斯地链霉菌、氢化链霉菌、嫩白黄链霉菌、浅紫链霉菌的亲缘关系较近。
图 3 基于Streptomyces sp. MY0504和相关菌株的16S rDNA 序列构建的系统发育树
Fig.3 The phylogenetic tree based on 16S rDNA sequences of Streptomyces sp. MY0504 and related strains
注: 建树采用Neighbor-Joining法,并进行1000次bootstrap统计学检验。
2.3 生物信息分析
2.2.1 MY-YG4基因的ORF及其氨基酸序列的预测
按照NCBI数据库及DNAMAN软件处理所得结果,MY-YG4基因的最大ORF从第一个碱基开始,到第1083个碱基终止,即所有序列都为编码区,共编码360个氨基酸。
图4 MY-YG4基因全长及编码氨基酸序列预测
Fig.4 Complete DNA and deduced encoding amino acid sequences of MY-YG4 gene
2.2.2 一级结构及其理化性质分析
利用Prot Param软件,分析链霉菌MY0504纤溶酶YG4(MY-YG4)基因编码蛋白的氨基酸组成(表3)及其理化性质。链霉菌MY0504纤溶酶YG4(MY-YG4)基因共编码360个氨基酸,其中甘氨酸(Gly)含量最高,占全部氨基酸的13.9 %。带负电氨基酸(Asp + Glu)、带正电氨基酸(Arg + Lys)残基的数量分别为43和27个。分子式为C1569H2503N443O543S4,原子总数为5062,相对分子质量为36,389.02 Da,理论等电点为4.74,是酸性蛋白。在280 nm波长下,所有半胱氨酸形成胱氨酸(cystines)时的消光系数为23,170 L/(mol·cm) ,对应的吸光度为0.637;所有半胱氨酸均不形成胱氨酸时的消光系数为22,920 L/(mol·cm),对应的吸光度为0.630。哺乳动物网织红细胞的半衰期为100 h,不稳定指数为26.16,表明该基因翻译出来的纤溶酶是一个稳定蛋白(不稳定系数小于40时为稳定蛋白),脂肪族氨基酸指数为77.83。
表3 MY-YG4基因编码蛋白的氨基酸组成
Table 3 Amino acid composition of MY-YG4 gene coding protein
氨基酸种类 Kinds of amino acid |
比例/% Proportion |
丙氨酸 Ala |
12.8% |
精氨酸 Arg |
3.3% |
天冬酰胺 Asn |
2.8% |
天冬氨酸 Asp |
5.6% |
半胱氨酸 Cys |
1.1% |
谷氨酰胺 Gln |
2.8% |
谷氨酸 Glu |
6.4% |
甘氨酸 Gly |
13.9% |
组氨酸 His |
1.4% |
异亮氨酸 Ile |
3.3% |
亮氨酸 Leu |
6.9% |
赖氨酸 Lys |
4.2% |
甲硫氨酸 Met |
0.0% |
苯丙氨酸 Phe |
2.5% |
脯氨酸 Pro |
2.8% |
丝氨酸 Ser |
8.9% |
苏氨酸 Thr |
10.0% |
色氨酸 Trp |
0.6% |
酪氨酸 Tyr |
2.2% |
缬氨酸 Val |
8.6% |
吡咯赖氨酸 Pyl |
0.0% |
硒半胱氨酸 Sec |
0.0% |
2.2.3 亲水性/疏水性、跨膜结构
蛋白质的折叠主要由氨基酸的亲、疏水性驱动,是每种氨基酸固有的特性[19]。蛋白质在折叠时形成疏水的内核和亲水的表面,同时潜在跨膜区会出现高疏水性结构域,通过对亲疏水性分析可以反映蛋白质表面氨基酸的分布和跨膜结构域[20]。
通过ProtScale程序分析,预测MY-YG4基因编码氨基酸序列的亲水性/疏水性,结果如图5所示。多肽链的第22位具有最大值2.567,疏水性最强;第6位存在最小值-2.856,为亲水性氨基酸。平均疏水性通过理化性质分析显示为-0.141,在整条肽链中,亲水氨基酸数量较多,表明整条多肽链表现为亲水性。
图5 MY-YG4基因编码蛋白的疏水性和亲水性
Fig. 5 The hydrophobicity/hydrophilia of MY-YG4 gene coding protein
跨膜区必须由强疏水的氨基酸组成,才能使膜蛋白穿过膜的磷脂双分子层。通过蛋白亲、疏水性分析发现,该蛋白为亲水性蛋白,推测不存在跨膜区。进一步利用TMHMM程序对该蛋白跨膜区进行了分析,结果如图6所示。表明确实不存在跨膜区,这与亲水性的分析的结果是一致的。
图6 MY-YG4基因编码蛋白的跨膜区预测结果
Fig. 6 The transmembrane domain of MY-YG4 gene coding protein
2.2.4信号肽
信号肽是引导前体蛋白质通过细胞膜分泌到胞外的一段序列,对其预测和分析有助于了解蛋白质的细胞定位并区分蛋白质的功能域[21]。分析发现,纤溶酶蛋白典型的信号肽的C值和Y值趋向于1,且S值在切割位点之前高,而在切割位点之后降低。信号肽预测结果如图7所示,该蛋白最高原始剪切位点分值(C)、最高信号肽分值(S)以及最高综合剪切位点分值(Y)分别为0.467、0.420、0.275,该结果不具备信号肽的要求。该蛋白不存在信号肽,为非分泌蛋白。
图7 MY-YG4基因编码蛋白的信号肽预测结果
Fig. 7 The signal peptide of MY-YG4 gene coding protein
2.2.5 磷酸化位点预测与分析
利用NetPhos 3.1 Server软件对该基因编码的蛋白磷酸化位点进行预测和分析(图8)。结果表明,多肽链分值大于0.5的有40个氨基酸位点,说明该基因有40个磷酸化位点,且在多肽链中分布不均匀。其中,有23个丝氨酸残基(Ser)可能发生磷酸化;有14个苏氨酸残基(Thr)可能发生磷酸化;有3个酪氨酸残基(Tyr)可能发生磷酸化。
图8 MY-YG4磷酸化位点预测与分析
Fig.8 Phosphorylation site prediction and analysis of MY-YG4 amino acid
2.2.6 二级结构
蛋白质分子的多肽链通常折叠和盘绕,形成比较稳定的空间结构,具有特有的生物活性和理化性质。因此,蛋白质二级结构的预测和分析对其空间结构的了解有着重要意义预测。常见的二级结构元件主要有α-螺旋(Alpha-helix)、β-转角(Beta-turn)、β-折叠(Beta-sheet)、无规则卷曲(Random coil)以及伸展链(Extended strand)等。通过SOPMA对纤溶酶蛋白二级结构进行预测,结果如图9所示,该蛋白中存在114个无规则卷曲占31.67%、112个α-螺旋占31.11%、38个β转角占10.56%、96个伸展链占26.67%。
图9 MY-YG4基因编码蛋白的折叠盘绕方式
Fig.9 The folded and coiled ways of MY-YG4 gene coding protein
2.2.7 三级结构
将氨基酸序列提交SWISS-MODEL,同源建模得到蛋白质的三维结构[27],如图10所示。该蛋白存在较多的卷曲和螺旋,结构较为丰富,而这些结构对其生物学功能的发挥有重要作用。
图10 MY-YG4基因编码蛋白的三级结构
Fig.10 The tertiary structure of MY-YG4 gene coding protein
3 讨论
血栓性疾病严重威胁着人类的健康,溶栓疗法是目前最安全有效的方法之一。虽然随着分子生物学技术的发展和药物筛选手段的不断提高,各种不同来源的溶栓药物在治疗血栓病上均已取得了很大的进展,但都还存在着一些缺陷。由于利用微生物进行生产,具有周期短、产量高、生产工艺简单、成本低等特点,从微生物寻找新型天然来源的溶栓药已经成为生物医药发展的一个重要方向。当然溶栓药物的研究不仅要从自然界中筛选目的菌,更重要的是用分子生物学和基因工程技术对菌种进行改造,以提高溶栓药物的应用专一性。
本研究主要从海洋链霉菌MY0504克隆了纤溶酶YG4(MY-YG4)基因,经NCBI网站BLAST搜索后,发现与马怡茗[22]等报道的角蛋白酶基因gm2886(GenBank Accession Number: KY368946)序列完全一致。多种底物检测表明,重组蛋白GM2886-His6具有蛋白酶活性,可以降解水不溶性的天青角蛋白和羽毛粉。
研究发现已知蛋白的新功能,对蛋白的开发利用意义巨大。于是,我们对MY-YG4基因进行了生物信息学分析。结果表明,该基因编码的蛋白由360个氨基酸组成,属于丝氨酸蛋白酶,为稳定的亲水蛋白,无信号肽和跨膜结构域,高级结构以无规则卷曲为主。该蛋白三级结构较为丰富,而这些结构对其生物学功能的发挥有重要作用。这些性质对该基因及其家族的结构和生物学功能的研究,奠定了理论基础。但是为了获取更准确的研究结果,仍须克隆验证,因此关于该基因的分子克隆和功能鉴定,我们还在进行更深层次的的试验和研究。
参考文献
[1] 鲁艳莉, 宁喜斌. 血栓形成机理及溶血栓药物的研究进展[J]. 食品研究与开发, 2006(01):169-172.
[2] Narasimhan M K, Chandrasekaran M, Rajesh M. Fibrinolytic enzyme production by newly isolated Bacillus cereus SRM-001 with enhanced in-vitro blood clot lysis potential[J]. J Gen Appl Microbiol, 2015,61(5):157-164.
[3] Banerjee A, Chisti Y, Banerjee U C. Streptokinase--a clinically useful thrombolytic agent[J]. Biotechnol Adv, 2004,22(4):287-307.
[4] 郝树站, 王素英. 海洋微生物生物活性物质的研究进展[J]. 生命科学研究, 2005(S1):35-38.
[5] 田新朋, 张偲, 李文均. 海洋放线菌研究进展[J]. 微生物学报, 2011,51(2):161-169.
[6] S V, S S S, OS A, et al. Antimicrobial potential of Actinomycetes species isolated from marine environment[J]. Asian Pacific Journal of Tropical Biomedicine, 2012(06):469-473.
[7] Elich E, Schreinemakers P, Vullings M. Partha N Ultrasound induced production of thrombinase by marine actinomycetes: kinetic and optimization studies[J]. Biochemical Engineering Journal, 2012,61(8):34-42.
[8] Zotchev S B. Marine actinomycetes as an emerging resource for the drug development pipelines[J]. J Biotechnol, 2012,158(4):168-175.
[9] Ju X, Cao X, Yong S, et al. Purification and characterization of a fibrinolytic enzyme from Streptomyces sp. XZNUM 00004[J]. World J Microbiol Biotechnol, 2012,28(7):2479-2486.
[10] 侯正欣, 董超, 马萱, 等. 海洋来源链霉菌MY0504产纤溶酶的发酵条件优化[J]. 微生物学通报, 2017(05):1009-1016.
[11] 米阳, 董超, 侯正欣, 等. 海洋链霉菌发酵纤溶酶的分离纯化和酶学性质研究[J]. 中国海洋药物, 2016,35(3):43-48.
[12] 董超, 米阳, 原晋波, 等. 产纤溶酶海洋放线菌的筛选及初步鉴定[J]. 中国酿造, 2015(07):59-64.
[13] Xiang L, Moore B S. Characterization of Benzoyl Coenzyme A Biosynthesis Genes in the Enterocin-Producing Bacterium “Streptomyces maritimus”[J]. Journal of Bacteriology, 2003,185(2):399-404.
[14] 敬俊锋, 陈斌, 李莹, 等. 纳豆激酶基因的克隆及其在毕赤酵母中的表达[J]. 生物学杂志, 2011(05):55-57.
[15] 王志坤, 常健敏, 李丹丹, 等. 大豆GmWRI1a基因克隆及生物信息学分析[J]. 东北农业大学学报, 2013(07):11-16.
[16] Petersen T N, Brunak S, von Heijne G, et al. SignalP 4.0: discriminating signal peptides from transmembrane regions[J]. Nat Methods, 2011,8(10):785-786.
[17] Gallego Albiach V, Martínez Pastor F, Mazzeo I, et al. Intracellular changes in Ca 2 + , K + and pH after sperm motility activation in the European eel ( Anguilla anguilla ): Preliminary results[J]. Aquaculture, 2014,418(1):155-158.
[18] 张树波, 赖剑煌. 分子系统发育分析的生物信息学方法[J]. 计算机科学, 2010,37(8):47-51.
[19] Jensen L J, Gupta R, Staerfeldt H H, et al. Prediction of human protein function according to Gene Ontology categories[J]. Bioinformatics, 2003,19(5):635-642.
[20] Li J B, Luan Y S. Molecular cloning and characterization of a pathogen-induced WRKY transcription factor gene from late blight resistant tomato varieties Solanum pimpinellifolium L3708[J]. Physiological & Molecular Plant Pathology, 2014,87:25-31.
[21] 赵慧, 郑文岭, 马文丽. 信号肽对外源蛋白分泌效率的影响[J]. 生物学杂志, 2003,20(5):177-179.
[22] 马怡茗, 柯欣, 李晓霞, 等. 角蛋白酶基因gm2886在密旋链霉菌ACT12中的表达及鉴定[J]. 生物工程学报, 2017(12):1968-1978.