r语言对股票数据进行分析法_如何用R 语言建立股票价格的时间序列

A. 如何用r软件对给定数据进行回归分析（不能用lm函数）

可以试着探索一下summary(lm(y~x))到底是什么。首先看一下summary(lm(y~x))是什么数据类型： > m class(summary(m)) [1] "summary.lm" #可以看到，lm的结果是一个"summary.lm" 对象。这有些显而易见。好吧，继续探索。 R语言中所有的对象都建立在一些native data structures之上，那么summary(lm(y~x)的native data structure是什么呢？可以用mode()命令查看。

B. R语言相关性分析图。想知道怎么分析这些数据

框内的数字是行变量和列变量之间的相关系数R，相关系数R绝对值越大，颜色越深（红正，蓝负）。统计学中，P值越小相关性越显着，一般来说一个*代表显着相关（P值为0.01，选取不同参数可能不一样）、两个**代表极显着相关（P值为0.001）、三个***代表极极显着相关（P值为0.0001）. 图中还可以看出，相关系数R的绝对值0.67（变量P50与T之间）以上的都显着相关，至少一个*。符合一般关于相关系数R值的显着性统计。

C. 怎么学习用 R 语言进行数据挖掘

什么是R语言？应该如何开始学习/使用R语言呢？

学习R有几个月了，总算是摸着了一点门道。
写一些自己的心得和经验，方便自己进一步鼓捣R。如果有人看到我写的东西而得到了帮助，那就更好了。
什么是R？R的优点何在？
R是一个数据分析软件。简单点说，R可以看做MATLAB的“替代品”，而且具有免费开源的优势。R可以像MATLAB一样解决有关数值计算的问题，而且具有强大的数据处理，绘图功能。
R拥有大量的统计分析工具包，我的感觉是——只有我们没听说过的工具，绝对没有R没有的工具包。配合着各种各样的工具包，你可以毁灭任何关于数据和统计的问题。因为数据包的数量庞大，所以查找自己需要的数据包，可能很烦恼。
如果有以下技能，学R会很方便：
1.已经了解些高级程序语言（非常重要）
2.英语不坏
3.概率统计理论基础
4.看数据不头疼
5.看cmd or terminal 也不头疼
你需要一本适合你的R语言教材
我开始学习R的时候，找到了这个帖子

非常强大的关于R语言教材综述。我非常感谢原帖作者。你可以参考这个帖子选一本适合你的教材。
我这里在说一下我主要使用的几本教材的心得：
1. 统计建模与R软件（薛毅着）：非常优秀的R语言入门教材，涵盖了所有R的基础应用&方法，示例代码也很优秀。作为一本中文的程序语言教材，绝对是最优秀的之一。但是要看懂这本书，还是需要“已经了解些高级程序语言”。PS：我亲爱的吉林大学图书馆，有两本该教材流通，我常年霸占一本。
2. R in Nutshell：从讲解内容上看，与上一本差别不大，在R语言的应用上都是比较初级的入门，但是有些R软件&语言上的特性，写得比薛毅老师的教材深刻。这本书最大的优点就是工具书，方便开始入门时候，对有些“模棱两可”的东西的查询。PS：我将这本书打印了出来，简单的从头到尾翻过，最大的用途就是像一本字典一样查询。
3. ggplot2 Elegant Graphics for Data：这是一本介绍如何使用ggplot2包，进行绘图的书。ggplot2包，非常强大的绘图工具，几乎可以操作任何图中的元素，而且是提供添加图层的方式让我们可以一步步的作图。提到ggplot2包，应该提到一个词——“潜力无穷”，每一个介绍
ggplot2的人，都会用这个形容词。这本书最大的作用也是当做一本绘图相关的工具书，书中讲解详细，细致，每个小参数的变动都会配图帮你理解。PS：这本书我也打印出来了，非常适合查询。
几个可以逐步提高R能力的网站
1.R-bloggers: 这里有关于R和数据的一切讨论，前沿的问题，基础的问题，应有尽有。可以说这些家伙们让R变得越来越强大。我RSS了这个网站，每天都看一下有什么我感兴趣的方法和话题，慢慢的积累一些知识，是一个很有意思的过程。
2.统计之都：这是一个有大量R使用者交流的论坛，你可以上去提问题，总有好心人来帮助你的。
3.R客：是关于R的一个博客，更新不快，偏重国内R的一些发展。
R的使用环境
如果你看见terminal or cmd就打怵的话，一定要使用Rstudio。Rstudio的优点是，集成了Rconsole、脚本编辑器、可视化的数据查询、历史命令、帮助查询等，还有的完美的脚本和console的互动。毕竟是可视化的界面，有许多按钮可以用。R 的脚本编辑器很蛋疼，就比记事本多了个颜色高亮吧，不适合编写脚本，但适合调试脚本。
最后，说一下，刚开始学习R或者其他什么语言，都有一个通病，就是一些小细节的不知道，或者是记得不清楚，往往一个蛋疼的bug就可以耗掉大量的时间，这是一个让人想砸电脑的过程。我往后，会在博客里记录一些让我蛋很疼的小细节。本文分为6个部分，分别介绍初级入门，高级入门，绘图与可视化，计量经济学，时间序列分析，金融等。
1.初级入门
《An Introction to R》，这是官方的入门小册子。其有中文版，由丁国徽翻译，译名为《R导论》。《R4Beginners》，这本小册子有中文版应该叫《R入门》。除此之外，还可以去读刘思喆的《153分钟学会R》。这本书收集了R初学者提问频率最高的153个问题。为什么叫153分钟呢？因为最初作者写了153个问题，阅读一个问题花费1分钟时间，全局下来也就是153分钟了。有了这些基础之后，要去读一些经典书籍比较全面的入门书籍，比如《统计建模与R软件》，国外还有《R Cookbook》和《R in action》，本人没有看过，因此不便评论。
最后推荐，《R in a Nutshell》。对，“果壳里面的R”！当然，是开玩笑的，in a Nutshell是俚语，意思大致是“简单的说”。目前，我们正在翻译这本书的中文版，大概明年三月份交稿！这本书很不错，大家可以从现在开始期待，并广而告知一下！
2.高级入门
读了上述书籍之后，你就可以去高级入门阶段了。这时候要读的书有两本很经典的。《Statistics with R》和《The R book》。之所以说这两本书高级，是因为这两本书已经不再限于R基础了，而是结合了数据分析的各种常见方法来写就的，比较系统的介绍了R在线性回归、方差分析、多元统计、R绘图、时间序列分析、数据挖掘等各方面的内容，看完之后你会发现，哇，原来R能做的事情这么多，而且做起来是那么简洁。读到这里已经差不多了，剩下的估计就是你要专门攻读的某个方面内容了。下面大致说一说。
3.绘图与可视化
亚里斯多德说，“较其他感觉而言，人类更喜欢观看”。因此，绘图和可视化得到很多人的关注和重视。那么，如何学习R画图和数据可视化呢？再简单些，如何画直方图？如何往直方图上添加密度曲线呢？我想读完下面这几本书你就大致会明白了。
首先，画图入门可以读《R Graphics》，个人认为这本是比较经典的，全面介绍了R中绘图系统。该书对应的有一个网站，google之就可以了。更深入的可以读《Lattice：Multivariate Data Visualization with R》。上面这些都是比较普通的。当然，有比较文艺和优雅的——ggplot2系统，看《ggplot2：Elegant Graphics for Data Analysis》。还有数据挖掘方面的书：《Data Mining with Rattle and R》，主要是用Rattle软件，个人比较喜欢Rattle!当然，Rattle不是最好的，Rweka也很棒！再有就是交互图形的书了，着名的交互系统是ggobi，这个我已经喜欢两年多了，关于ggobi的书有《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》，不过，也只是适宜入门，更多更全面的还是去ggobi的主页吧，上面有各种资料以及包的更新信息！
特别推荐一下，中文版绘图书籍有《现代统计图形》。
4.计量经济学
关于计量经济学，首先推荐一本很薄的小册子:《Econometrics In R》，做入门用。然后，是《Applied Econometrics with R》，该书对应的R包是AER，可以安装之后配合使用，效果甚佳。计量经济学中很大一部分是关于时间序列分析的，这一块内容在下面的地方说。
5.时间序列分析
时间序列书籍的书籍分两类，一种是比较普适的书籍，典型的代表是：《Time Series Analysis and Its Applications ：with R examples》。该书介绍了各种时间序列分析的经典方法及实现各种经典方法的R代码，该书有中文版。如果不想买的话，建议去作者主页直接下载，英文版其实读起来很简单。时间序列分析中有一大块儿是关于金融时间序列分析的。这方面比较流行的书有两本《Analysis of financial time series》，这本书的最初是用的S-plus代码，不过新版已经以R代码为主了。这本书适合有时间序列分析基础和金融基础的人来看，因为书中关于时间序列分析的理论以及各种金融知识讲解的不是特别清楚，将极值理论计算VaR的部分就比较难看懂。另外一个比较有意思的是Rmetrics推出的《TimeSeriesFAQ》，这本书是金融时间序列入门的东西，讲的很基础，但是很难懂。对应的中文版有《金融时间序列分析常见问题集》，当然，目前还没有发出来。经济领域的时间序列有一种特殊的情况叫协整，很多人很关注这方面的理论，关心这个的可以看《Analysis of Integrated and Cointegrated Time Series with R》。最后，比较高级的一本书是关于小波分析的，看《Wavelet Methods in Statistics with R》。附加一点，关于时间序列聚类的书籍目前比较少见，是一个处女地，有志之士可以开垦之！
6.金融
金融的领域很广泛，如果是大金融的话，保险也要被纳入此间。用R做金融更多地需要掌握的是金融知识，只会数据分析技术意义寥寥。我觉得这些书对于懂金融、不同数据分析技术的人比较有用，只懂数据分析技术而不动金融知识的人看起来肯定如雾里看花，甚至有人会觉得金融分析比较低级。这方面比较经典的书籍有：《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》。金融产品定价之类的常常要用到随机微分方程，有一本叫《Simulation Inference Stochastic Differential Equations：with R examples》的书是关于这方面的内容的，有实例，内容还算详实!此外，是风险度量与管理类。比较经典的有《Simulation Techniques in Financial Risk Management》、《Modern Actuarial Risk Theory Using R》和《Quantitative Risk Management：Concepts, Techniques and Tools》。投资组合分析类和期权定价类可以分别看《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》。
7.数据挖掘
这方面的书不多，只有《Data Mining with R:learing with case studies》。不过，R中数据挖掘方面的包已经足够多了，参考包中的帮助文档就足够了。

D. 如何用R 语言建立股票价格的时间序列

在下想用R语言对股票价格进行时间序列分析。
问题出在第一步，如何将股票价格转换为时间序列。
我想用的语句是 pri <- ts (data, start=(), frequency= )
但是我不知道frequency 项该如何填？
因为股票的交易日是一周五天的。那么这个frequency 该如何设置呢？
我知道通常frequency= 12 为月度数据，frequency= 4 为季度数据，frequency= 1 为年度数据但日数据怎么写我就不知道了

初学R语言，还望各位大侠多多帮助。

E. 用r语言做数据分析好学吗

非常好学。输入几行代码，即可得到结果。
R不但数据分析好用，而且作图能力极好，推荐你用。

下面是R数据分析的一些代码，包括数据导入、方差分析、卡方测验、线性模型及其误差分析。希望可以帮到你：
1.1导入数据
install.packages('xslx')
library(xlsx)
Sys.setlocale("LC_ALL", "zh_cn.utf-8")
a=read.xlsx2('d:/1.xlsx',1,header=F)
head(a)显示前六行
class(a$y)/str(a)查看列/全集数据类型
a$y=as.numeric(a$y)转换数据类型
1.2方差分析(F test)
with(a,tapply(liqi,tan,shapiro.test))正态性检验
library(car)leveneTest(liqi~tan,a)方差齐性检验
q=aov(liqi~tan*chong,a)方差分析(正态型)
summary(q)
TukeyHSD(q)多重比较
1.3卡方测验(Pearson Chisq)
a1=summarySE(a,measurevar='y', groupvars=c('x1','x2'))卡方检验(逻辑型/计数型)
aa=a1$y
aaa=matrix(a2,ncol=2)
aaa= as.table(rbind(c(56,44), c(36,64), c(48,52),c(58,42)))
dimnames(aaa)= list(group=c("不添加抗性","不添加敏感","添加抗性","添加敏感"),effect=c("存活","死亡"))
aaa=xtabs(data=a,~x+y)
chisq.test(a)误差分析(卡方测验，Pearson法)
install.packages("rcompanion")
library(rcompanion)
pairwiseNominalIndependence(a)多重比较
1.4线性模型及其误差分析(Wald Chisq)
q=lm(data=a,y~x1*x2)一般线性模型(正态性)
summary(q)
q=glm(data=a,y~x1*x2,family = gaussian(link='identity'))广义线性模型(正态性)
summary(q)
q=glm(data=a,y~x1*x2,family = binomial(link='logit'))广义线性模型(逻辑型，二项分布)
summary(q)
q=glm(data=a,y~x1*x2,family = poisson(link='log'))广义线性模型(计数型，泊松分布)
summary(q)
install.packages('lmerTest')一般线性混合效应模型(正态性)
library(lmerTest)
install packages(‘lme4’)
library(lme4)
q=lmer(data=a,y~x1*(1|x2))
q=lmer(data=a,y~x1*(1|x2),family = gaussian(link='identity'))广义线性混合效应模型(正态性)
q=glmer(data=a,y~x1*(1|x2),family = binomial(link='logit'))广义线性混合效应模型(逻辑型，二项分布)
q=glmer(data=a,y~x1*(1|x2),family = poisson(link='log'))广义线性混合效应模型(计数型，泊松分布)
summary(q)
install.packages('car')
install.packages('openxlsx')
library(car)
install.packages('nlme')
library(nlme)
Anova(q,test='Chisq')线性模型的误差分析(似然比卡方测验,Wald法)
lsmeans(q,pairwise~chuli,adjust = "tukey")线性模型的多重比较(tukey法)

F. 用R语言进行关联分析

用R语言进行关联分析
关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系，描述数据之间的密切度。
几个基本概念
1. 项集
这是一个集合的概念，在一篮子商品中的一件消费品即为一项（Item），则若干项的集合为项集，如{啤酒，尿布}构成一个二元项集。
2. 关联规则
一般记为的形式，X为先决条件，Y为相应的关联结果，用于表示数据内隐含的关联性。如：，表示购买了尿布的消费者往往也会购买啤酒。
关联性强度如何，由三个概念——支持度、置信度、提升度来控制和评价。
例：有10000个消费者购买了商品，其中购买尿布1000个，购买啤酒2000个，购买面包500个，同时购买尿布和面包800个，同时购买尿布和面包100个。
3. 支持度（Support）
支持度是指在所有项集中{X, Y}出现的可能性，即项集中同时含有X和Y的概率：
该指标作为建立强关联规则的第一个门槛，衡量了所考察关联规则在“量”上的多少。通过设定最小阈值（minsup），剔除“出镜率”较低的无意义规则，保留出现较为频繁的项集所隐含的规则。
设定最小阈值为5%，由于{尿布，啤酒}的支持度为800/10000=8%，满足基本输了要求，成为频繁项集，保留规则；而{尿布，面包}的支持度为100/10000=1%，被剔除。
4. 置信度（Confidence）
置信度表示在先决条件X发生的条件下，关联结果Y发生的概率：
这是生成强关联规则的第二个门槛，衡量了所考察的关联规则在“质”上的可靠性。相似的，我们需要对置信度设定最小阈值（mincon）来实现进一步筛选。
具体的，当设定置信度的最小阈值为70%时，置信度为800/1000=80%，而的置信度为800/2000=40%，被剔除。
5. 提升度（lift）
提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项集中含有Y的可能性之比：
该指标与置信度同样衡量规则的可靠性，可以看作是置信度的一种互补指标。
R中Apriori算法
算法步骤：
1. 选出满足支持度最小阈值的所有项集，即频繁项集；
2. 从频繁项集中找出满足最小置信度的所有规则。
> library(arules) #加载arules包
> click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1)) #读取txt文档（文档编码为ANSI）
> rules <- apriori(click_detail, parameter =list(supp=0.01,conf=0.5,target="rules")) #调用apriori算法
> rules
set of419 rules
> inspect(rules[1:10]) #查看前十条规则
解释
1) library(arules)：加载程序包arules，当然如果你前面没有下载过这个包，就要先install.packages(arules)
2) click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1))：读入数据
read.transactions(file, format =c("basket", "single"), sep = NULL,
cols = NULL, rm.plicates =FALSE, encoding = "unknown")
file:文件名，对应click_detail中的“click_detail.txt”
format:文件格式，可以有两种，分别为“basket”,“single”，click_detail.txt中用的是basket。
basket: basket就是篮子，一个顾客买的东西都放到同一个篮子，所有顾客的transactions就是一个个篮子的组合结果。如下形式，每条交易都是独立的。
文件形式：
item1,item2
item1
item2,item3
读入后：
items
1 {item1,
item2}
2 {item1}
3 {item2,
item3}
single: single的意思，顾名思义，就是单独的交易，简单说，交易记录为：顾客1买了产品1，顾客1买了产品2，顾客2买了产品3……(产品1，产品2，产品3中可以是单个产品，也可以是多个产品)，如下形式：
trans1 item1
trans2 item1
trans2 item2
读入后：
items transactionID
1 {item1} trans1
2 {item1,
item2} trans2
sep:文件中数据是怎么被分隔的，默认为空格，click_detail里面用逗号分隔
cols:对basket, col=1,表示第一列是数据的transaction ids(交易号)，如果col=NULL，则表示数据里面没有交易号这一列；对single，col=c(1,2)表示第一列是transaction ids，第二列是item ids
rm.plicates:是否移除重复项，默认为FALSE
encoding:写到这里研究了encoding是什么意思，发现前面txt可以不是”ANSI”类型，如果TXT是“UTF-8”，写encoding=”UTF-8”，就OK了.
3) rules <- apriori(click_detail,parameter = list(supp=0.01,conf=0.5,target="rules"))：apriori函数
apriori(data, parameter = NULL, appearance = NULL, control = NULL)
data:数据
parameter：设置参数，默认情况下parameter=list(supp=0.1,conf=0.8,maxlen=10,minlen=1,target=”rules”)
supp:支持度（support）
conf:置信度（confidence）
maxlen,minlen:每个项集所含项数的最大最小值
target:“rules”或“frequent itemsets”（输出关联规则/频繁项集）
apperence:对先决条件X（lhs），关联结果Y（rhs）中具体包含哪些项进行限制，如：设置lhs=beer，将仅输出lhs含有beer这一项的关联规则。默认情况下，所有项都将无限制出现。
control：控制函数性能，如可以设定对项集进行升序sort=1或降序sort=-1排序，是否向使用者报告进程（verbose=F/T）
补充
通过支持度控制：rules.sorted_sup = sort(rules, by=”support”)
通过置信度控制：rules.sorted_con = sort(rules, by=”confidence”)
通过提升度控制：rules.sorted_lift = sort(rules, by=”lift”)
Apriori算法
两步法：
1. 频繁项集的产生：找出所有满足最小支持度阈值的项集，称为频繁项集；
2. 规则的产生：对于每一个频繁项集l，找出其中所有的非空子集；然后，对于每一个这样的子集a，如果support(l)与support(a)的比值大于最小可信度，则存在规则a==>(l-a)。
频繁项集产生所需要的计算开销远大于规则产生所需的计算开销
频繁项集的产生
几个概念：
1，一个包含K个项的数据集，可能产生2^k个候选集

2，先验原理：如果一个项集是频繁的，则它的所有子集也是频繁的（理解了频繁项集的意义，这句话很容易理解的）；相反，如果一个项集是非频繁的，则它所有子集也一定是非频繁的。

3基于支持度（SUPPORT）度量的一个关键性质：一个项集的支持度不会超过它的子集的支持度（很好理解，支持度是共同发生的概率，假设项集{A,B,C}，{A,B}是它的一个自己，A,B,C同时发生的概率肯定不会超过A,B同时发生的概率）。
上面这条规则就是Apriori中使用到的，如下图，当寻找频繁项集时，从上往下扫描，当遇到一个项集是非频繁项集（该项集支持度小于Minsup），那么它下面的项集肯定就是非频繁项集，这一部分就剪枝掉了。
一个例子（网络到的一个PPT上的）：
当我在理解频繁项集的意义时，在R上简单的复现了这个例子，这里采用了eclat算法，跟apriori应该差不多：
代码：
item <- list(
c("bread","milk"),
c("bread","diaper","beer","eggs"),
c("milk","diaper","beer","coke"),
c("bread","milk","diaper","beer"),
c("bread","milk","diaper","coke")
)
names(item) <- paste("tr",c(1:5),sep = "")
item
trans <- as(item,"transactions") #将List转为transactions型
rules = eclat(trans,parameter = list(supp = 0.6,
target ="frequent itemsets"),control = list(sort=1))
inspect(rules) #查看频繁项集
运行后结果：
>inspect(rules)
items support
1{beer,
diaper} 0.6
2{diaper,
milk} 0.6
3{bread,
diaper} 0.6
4{bread,
milk} 0.6
5{beer} 0.6
6{milk} 0.8
7{bread} 0.8
8{diaper} 0.8
以上就是该例子的所有频繁项集，然后我发现少了{bread,milk,diaper}这个项集，回到例子一看，这个项集实际上只出现了两次，所以是没有这个项集的。
规则的产生
每个频繁k项集能产生最多2k-2个关联规则
将项集Y划分成两个非空的子集X和Y-X，使得X ->Y-X满足置信度阈值
定理：如果规则X->Y-X不满足置信度阈值，则X’->Y-X’的规则一定也不满足置信度阈值，其中X’是X的子集
Apriori按下图进行逐层计算，当发现一个不满足置信度的项集后，该项集所有子集的规则都可以剪枝掉了。

G. R语言怎么把股票日收盘价转换成对数收益率

知道一系列收盘价向量X,length=1000,求对数收益率的R语言代码
acf(int[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly

acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly
log return')

Box.test(int[,2], lag = 5, type = "Ljung-Box")
Box.test(int[,2], lag = 10, type = "Ljung-Box")
Box.test(int.l[,2], lag = 5, type = "Ljung-Box")
Box.test(int.l[,2], lag = 10, type = "Ljung-Box")

运行结错误办

> int <- read.table("d-intc7208.txt", head=T)
错误于file(file, "rt") : 打链结
外: 警告信息：
In file(file, "rt") :
打文件'd-intc7208.txt': No such file or directory

+ acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly
错误: 意外符号 in:
"
acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int"
> log return')
错误: 意外符号 in "log return"

导航:首页 > 数据行情 > r语言对股票数据进行分析法

r语言对股票数据进行分析法

与r语言对股票数据进行分析法相关的资料