Python统计如何进行DNA序列整理

Python统计在我们的使用中有很多的障碍，其中在DNA序列上的相关问题就需要我们不断的去学习。下面我们就向大家介绍有关的问题，希望在以后Python统计的使用过程中有所收获。

创新互联建站专注于网站建设|网页维护|优化|托管以及网络推广，积累了大量的网站设计与制作经验，为许多企业提供了网站定制设计服务，案例作品覆盖砂岩浮雕等行业。能根据企业所处的行业与销售的产品，结合品牌形象的塑造，量身定制品质网站。

给定一堆DNA序列，即由字符A, C, G, T组成的字符串，统计所有长度为n的子序列出现的频率。比如 ACGTACGT，子序列长度为2，于是 AC=2, CG=2, GT=2, TA=1，其余长度为2的子序列频率为0.

***想到的就是建一个字典，key是所有可能的子序列，value是这个子序列出现的频率。但是当子序列比较长的时候，比如 n=8，需要一个有65536 (4的8次方) 个key-value pair的字典，且每个key的长度是8字符。这样ms有点浪费内存。。

于是想到，所有的长度为n的子序列是有序且连续的，所以可以映射到一个长度为4的n次方的的list里。令 A=0, C=1, G=2, T=3，则把子序列 ACGT 转换成 0*4^3 + 1*4^2 + 2*4 + 3 = 27, 映射到list的第27位。如此，list的index对应子序列，而list这个index位置则储存这个子序列出现的频率。

于是我们先要建立2个字典，Python统计表示ACGT和0123一一对应的关系：

 
 
 
  
  
  i2mD = {0:'A', 1:'C', 2:'G', 3:'T'}  
  
  
  m2iD = dict(A=0,C=1,G=2,T=3)  
  
  
  # This is just another way to initialize a dictionary

以及下面的子序列映射成整数函数：

 
 
 
  
  
  def motif2int(motif):  
  
  
  '''convert a sub-sequence/motif to a non-negative integer'''  
  
  
  total = 0 
  
  
  for i, letter in enumerate(motif):  
  
  
  total += m2iD[letter]*4**(len(motif)-i-1)  
  
  
  return total  
  
  
  Test:  
  
  
  >>> motif2int('ACGT')  
  
  
  27

以上就是对Python统计的相关介绍。虽然我们内部把子序列当成正整数来存储（确切地说，其实这个整数是没有存在内存里的，而是由其在list的index表示的），为了方便生物学家们看，输出时还是转换回子序列比较好。

【编辑推荐】

Python字符串如何进行代码替换
Python输入方式具体的三种实现方式
Python编程语言维和受到众人的追捧
Python编程语言具有相当高的适应能力
Python字符串替换如何才能进行字符的拆分

网站标题：Python统计如何进行DNA序列整理
当前网址：http://www.hantingmc.com/qtweb/news2/288902.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容