在R语言中找到了计算遗传距离的函数dist.dna();但是不知道在R里面如何利用循环批量处理文件计算遗传距离。想到了利用python来调用R函数的方法,查找相关教程发现需要用到rpy2模块。
创新互联公司专业为企业提供城中网站建设、城中做网站、城中网站设计、城中网站制作等企业网站建设、网页设计与制作、城中企业网站模板建站服务,10多年城中做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
easy_install rpy2 报错(看不懂报错内容);
pip install rpy2 报错(提示需要更新pip到pip19.0.3);
利用 python -m pip install --upgrade pip 更新pip报错(看不懂报错内容);
利用 教程安装pip成功更新。
使用 pip install rpy2 安装依旧报错(看不懂报错内容);
尝试教程 安装rpy2,提示 rpy2-2.9.5-cp37-cp37m-win_amd64.whl is not a supported wheel on this platform
在rpy2主页 发现一句话 Releasend source packages are available on PyPi. Installing should be as easy * as
(*:except on Windows)
这意思是在windows系统使用pip安装不太容易吗?
找到了教程 rpy2:在python中调用R函数的一个实例 ;发现其中rpy2的安装使用的是conda,自己也尝试在windows的DOS窗口下使用 conda install rpy2 成功。但是结尾处提示了一句 此时不应有do 不明白是什么意思
在python中加载R包查到可以使用
加载R语言自带的包时没有遇到问题;但是加载需要额外安装的包时遇到了报错
按照教程 使用 conda install -c r r-ggplot2 安装需要用到的包解决问题
一个简便描述序列分歧大小的测度是两条核苷酸序列中不同核苷酸位点的比例 P = nd/n;
nd为检测两条序列间不同核苷酸数;n为配对总数;P成为核苷酸间的p距离
如何通过PypeR来实现在Python中调用R
In [1]: # LOAD PYTHON PACKAGES
In [2]: import pandas as pd
In [3]: import pyper as pr
In [4]: # READ DATA
In [5]: data = pd.read_table("/home/liuwensui/Documents/data/csdata.txt", header = 0)
In [6]: # CREATE A R INSTANCE WITH PYPER
In [7]: r = pr.R(use_pandas = True)
In [8]: # PASS DATA FROM PYTHON TO R
In [9]: r.assign("rdata", data)
In [10]: # SHOW DATA SUMMARY
In [11]: print r("summary(rdata)")
try({summary(rdata)})
LEV_LT3 TAX_NDEB COLLAT1 SIZE1
Min. :0.00000 Min. : 0.0000 Min. :0.0000 Min. : 7.738
1st Qu.:0.00000 1st Qu.: 0.3494 1st Qu.:0.1241 1st Qu.:12.317
Median :0.00000 Median : 0.5666 Median :0.2876 Median :13.540
Mean :0.09083 Mean : 0.8245 Mean :0.3174 Mean :13.511
3rd Qu.:0.01169 3rd Qu.: 0.7891 3rd Qu.:0.4724 3rd Qu.:14.751
Max. :0.99837 Max. :102.1495 Max. :0.9953 Max. :18.587
PROF2 GROWTH2 AGE LIQ
Min. :0.0000158 Min. :-81.248 Min. : 6.00 Min. :0.00000
1st Qu.:0.0721233 1st Qu.: -3.563 1st Qu.: 11.00 1st Qu.:0.03483
Median :0.1203435 Median : 6.164 Median : 17.00 Median :0.10854
Mean :0.1445929 Mean : 13.620 Mean : 20.37 Mean :0.20281
3rd Qu.:0.1875148 3rd Qu.: 21.952 3rd Qu.: 25.00 3rd Qu.:0.29137
Max. :1.5902009 Max. :681.354 Max. :210.00 Max. :1.00018
IND2A IND3A IND4A IND5A
Min. :0.0000 Min. :0.0000 Min. :0.00000 Min. :0.00000
1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.00000
Median :1.0000 Median :0.0000 Median :0.00000 Median :0.00000
Mean :0.6116 Mean :0.1902 Mean :0.02692 Mean :0.09907
3rd Qu.:1.0000 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.00000
Max. :1.0000 Max. :1.0000 Max. :1.00000 Max. :1.00000
In [12]: # LOAD R PACKAGE
In [13]: r("library(betareg)")
Out[13]: 'try({library(betareg)})\nLoading required package: Formula\n'
In [14]: # ESTIMATE A BETA REGRESSION
In [15]: r("m - betareg(LEV_LT3 ~ SIZE1 + PROF2 + GROWTH2 + AGE + IND3A, data = rdata, subset = LEV_LT3 0)")
Out[15]: 'try({m - betareg(LEV_LT3 ~ SIZE1 + PROF2 + GROWTH2 + AGE + IND3A, data = rdata, subset = LEV_LT3 0)})\n'
In [16]: # OUTPUT MODEL SUMMARY
In [17]: print r("summary(m)")
try({summary(m)})
Call:
betareg(formula = LEV_LT3 ~ SIZE1 + PROF2 + GROWTH2 + AGE + IND3A, data = rdata,
subset = LEV_LT3 0)
Standardized weighted residuals 2:
Min 1Q Median 3Q Max
-7.2802 -0.5194 0.0777 0.6037 5.8777
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(|z|)
(Intercept) 1.229773 0.312990 3.929 8.53e-05 ***
SIZE1 -0.105009 0.021211 -4.951 7.39e-07 ***
PROF2 -2.414794 0.377271 -6.401 1.55e-10 ***
GROWTH2 0.003306 0.001043 3.169 0.00153 **
AGE -0.004999 0.001795 -2.786 0.00534 **
IND3A 0.688314 0.074069 9.293 2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(|z|)
(phi) 3.9362 0.1528 25.77 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 266.7 on 7 Df
Pseudo R-squared: 0.1468
Number of iterations: 25 (BFGS) + 2 (Fisher scoring)
In [18]: # CALCULATE MODEL PREDICTION
In [19]: r("beta_fit - predict(m, link = 'response')")
Out[19]: "try({beta_fit - predict(m, link = 'response')})\n"
In [20]: # SHOW PREDICTION SUMMARY IN R
In [21]: print r("summary(beta_fit)")
try({summary(beta_fit)})
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1634 0.3069 0.3465 0.3657 0.4007 0.6695
In [22]: # PASS DATA FROM R TO PYTHON
In [23]: pydata = pd.DataFrame(r.get("beta_fit"), columns = ["y_hat"])
In [24]: # SHOW PREDICTION SUMMARY IN PYTHON
In [25]: pydata.y_hat.describe()
Out[25]:
count 1116.000000
mean 0.365675
std 0.089804
min 0.163388
25% 0.306897
50% 0.346483
75% 0.400656
max 0.669489
在python中,除了调用下载的扩展库之外,还可以自定义函数,方便自己。把基础模块放在固定文件夹(或相对固定文件夹),使用sys.append(r’自定义的模块路径’)实例如下:
1、在E:pycharm新建hello.py实现基础功能函数(定义一个hello()函数)
2、 调用自定义的函数
3、 运行结果为:
更多Python相关技术文章,请访问Python教程栏目进行学习!以上就是小编分享的关于python中如何调用自己写的函数的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
此刻的心情:
2018年五一后入职新公司做项目实施,一直忙碌着公司的项目;国庆后更是被调到东莞支援项目,工作时间真的成了996了,唯一休息的一天也懒的出去。看看电影、洗洗衣服、与小棉袄视频下、学习学习Python也还挺有趣,也很充实。
Python中range()函数的用法
1、函数原型:range(start, end, scan):
参数含义:
start:计数从start开始。默认是从0开始。
例如range(5)等价于range(0, 5); end:技术到end结束,但不包括end.
例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5 scan:每次跳跃的间距,默认为1。
例如:range(0, 5) 等价于 range(0, 5, 1)
2、python中的range()函数的功能很强大,所以我觉得很有必要和大家分享一下,就好像其API中所描述的:
If you do need to iterate over a sequence of numbers, the built-in function range() comes in handy. It generates arithmetic progressions
--有道翻译的结果:如果确实需要迭代一组数字,那么内置函数range()就派上用场了。它生成算术级数。
3、实例调用
#r如果你需要遍历一个数字序列,可以使用内置函数range()
#1、下面遍历一个列表
the_count=[1,2,3,4,5,6]
for number in the_count:
print("this is count %d" % number)
print("--------------------")
#2、遍历一个混合列表
list=[1,2,3,4,"zll",5,6,"hello",7,8.9]
for i in range(len(list)):
print (list[i],end="、")
print("\n--------------------")
#3、用range()函数生成一个列表
for i in range(5):
print(i,end="、")
print("\n--------------------")
#4、range(10),其中参数10代表:从0到10的一个序列,当然不包含10
print("range(10)表示:" ,range(10))
listA=[i for i in range(10)] print(listA)
print("--------------------")
#5、我们也可以自定义起始点和结束点 #我们定义了一个从5开始的起始点,到100结束的结束点
print("range(5,100)表示",range(5,100))
listB=[i for i in range(5,100)]
print(listB) print("--------------------")
#6、定义了这些后,我们还可以定义步长 #我们定义一个从1开始到30结束,步长为3的列表
print('range(1,30,3)表示:',range(1,30,3))
listC = [i for i in range(1,30,3)]
print(listC)
4、自己运行试试结果哦...
Python与R的区别和联系
1、区别
Python与R的区别是显而易见的,因为R是针对统计的,python是给程序员设计的。2012年R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。
Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。但是,凡事都不绝对,如果R矢量化编程做得好的话(有点小难度),会使R的速度和程序的长度都有显著性提升。
R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用。相比之下,Python之前在这方面贫乏不少。但是,现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。
2、联系
通过R和Python只共享文件,Python把源数据处理干净,生成格式化的文件放在预定的目录下,做个定时器让R去读文件,最终输出统计结果和图表。
让Python直接调用R的函数,R是开源项目,有rpy2之类的模块,可以实现使用python读取R的对象、调用R的方法以及Python与R数据结构转换等。
Python是解释型语言,代码由上而下解释执行。 你应该把depth函数代码 放在 Solution类的前面才能识别到。
做如上修改