◮ R語言筆記(二): 常見圖線的繪製
★上一篇基本介紹瞭如何產生向量以及對向量的一些基本操作,這一篇文章主要介紹如何繪製以下圖線:
(1)直方圖+點圖;
(2)密度估計曲線;
(3)經驗分佈圖;
(4)Q-Q 圖;
(5)莖葉圖;
(6)箱線圖;
(7)正態分佈圖(包括常用的畫出曲線的函式curve())
★其中會再介紹:
如何使用R語言已知的四類有關統計分佈的函式(密度函式d,累計分佈函式p,分位函式q,隨機數函式r)來快速做出相應的圖線。(這四個函式在以後也會有很經常的運用,適當理解記憶)
****************************************************************************************************************************************
*資料使用的是上一篇中的資料
一:四類有關統計分佈的函式以及其使用
R語言中提供了四類有關統計分佈的函式:密度函式、累計分佈函式、分位函式和隨機數函式,
使用時分別在代表該分佈的R函式前加上相應字首(d,p,q,r)即可獲得相應的函式。
★下面來舉個栗子--->>>:
d: 正態分佈的函式是norm,命令dnorm(0)就可以獲得正態分佈的密度函式在0處的值(0.3989)(預設情況下為標準正態分佈->均 值為0,標準差為1);
p: pnorm(0)是0.5就是正態分佈的累計密度函式在0處的值;
q: qnorm(0.5)則得到的是0,即標準正態分佈在0.5處的分位數是0;
r: rnorm(n)則是按正態分佈隨機產生n個數據(不同函式所要使用的引數也會有所不同。
二:常用圖線的繪製(每一點後面會附上相應的圖形)
★1:直方圖(Histogram)
> hist(Student) #圖線屬性均取預設值
> hist(Student,freq=F,col="blue",lty=3)
*該圖線部分屬性的解釋 :
Frequency 頻率
freq=T:頻數分佈直方圖
freq=F:頻率分佈直方圖
colour 顏色
col = "blue" :柱形的顏色
line style 線條樣式
lty = 3 :線條的樣式(1,2,3,4分別為直線,長虛線,短虛線和點虛線)
line width 線條寬度
lwd = 2 :線條的粗細程度
* 下面補充一下相對比較簡單的點圖:
plot(Student) #直接使用這個語句就可以產生相應的點圖(plot:點)
--->>>圖形:與下一個放在了一起,不單獨畫了(〃'▽'〃)
★2:密度估計曲線
> hist(x,freq=F)
> lines(density(x),lty=1) #配合頻率分佈直方圖使用,相應的屬性引數在上面已經提到
--->>>圖形:
★3:經驗分佈圖
plot(ecdf(x),verticals=TRUE,do.p=TRUE)
*該圖線部分屬性的解釋 :
verticals = T/TRUE:點與點之間通過豎線連線;
do.p :標出每一個點的位置,不加的話只是畫線;
--->>>圖形:
★4:Q-Q圖:判斷資料是否服從某種分佈的圖
#判斷資料是否來自正態分佈
> par(mfrow=c(1,2)) #讓兩幅圖位於同一頁面
> plot(ecdf(Student),verticals=TRUE,do.p=FALSE) #經驗分佈圖
> lines(0:100,pnorm(0:100,mean(Student),sd(Student)))
#相應資料範圍內的正態分佈曲線,注意這種方法繪製的正態分佈圖需要基於已繪製的圖
#簡單來說就是單獨執行這一個語句並不會做出一張正態分佈的曲線
#後面會介紹如何繪製正態分佈曲線
> qqnorm(Student);qqline(x) #將兩個圖線進行對比產生新圖
--->>>圖形:
★5:莖葉圖
> stem(Student)
The decimal point is 1 digit(s) to the right of the |
0 | 112
2 | 3
4 | 566
6 | 8
★6:箱型圖
> boxplot(Student)
* 有關箱型圖:
箱型圖有什麼作用?
箱型圖不受一場值得影響。可以以一種相對穩定的方式描述資料的離散分佈情況。
箱型圖最重要的作用就是識別異常值,在資料清洗中起到很大的作用。
*IQR:四分位距(interquartile range, IQR),又稱四分差--->>>畫箱型圖的邊界會用得到1.5IQR與3IQR。
是描述統計學中的一種方法,以確定第三四分位數和第一二分位數的區別,
與方差、標準差一樣,表示統計資料中各變數分散情形。
--->>>圖形:
★7:正態分佈(norm)曲線
說到正態分佈曲線就必須再次談到上面提到的四類有關統計分佈的函式和正態分佈函式的組合:
dnorm() :正態分佈的概率密度函式
pnorm() :正態分佈的分佈函式 (密度函式在一定長度區域的積分,分佈函式又叫做累計概率密度函式)
qnorm() :正態分佈的分位計算函式,某處的確切資料
rnorm(n,mean(),sd()) :產生n個指定均值與方差的符合正態分佈的隨機數
---->>>
使用curve()函式進行繪圖:
> x = 0 #這一步僅僅起到為x賦初值的作用
> curve(dnorm(x,0,1),xlim=c(-5,5),col="red",lwd=2)
---->>>影象:
三:例題分析(圖形已省略)
1:(1)繪製均值分別是-2和2,方差是1的正態曲線;
(2)繪製均值都是0,方差分別是0.5,1,2的正態曲線。
解答:
> x = 0
> curve(dnorm(x,-2,1),xlim=c(-10,10),col="blue",lwd=3)
> x = 0
> curve(dnorm(x,2,1),xlim=c(-10,10),col="blue",lwd=3)
> x = 0
> curve(dnorm(x,0,0.5),xlim=c(-3,3),col="blue",lwd=3)
> x = 0
> curve(dnorm(x,0,1),xlim=c(-5,5),col="blue",lwd=3)
> x = 0
> curve(dnorm(x,0,2),xlim=c(-10,10),col="blue",lwd=3)
2:產生50個標準正態分佈的隨機數並畫圖
解答:
> rnorm(50,0,1)
[1] 0.153511698 -0.598874538 1.444824480 0.113338992 0.195543906 -0.167031452 -0.720985541 0.036072191
[9] 0.184643424 0.823415004 -0.585216839 -1.337102916 -0.859287571 -2.623733157 -0.092221933 -1.097398448
[17] -1.126488539 -0.701888908 0.273297120 0.170948008 1.504047012 -0.230236291 -1.181785710 0.694720301
[25] 0.803350717 -0.549813009 -0.380067832 -1.576796227 -0.710676744 -0.541308125 0.154828153 0.893860231
[33] -0.047622902 1.497209582 2.684456744 0.091321547 0.712776814 0.405061117 -0.663331765 0.205133084
[41] 1.521656646 0.548676735 0.563675433 0.008166417 -0.419129354 -0.763316744 -0.411424094 0.446961904
[49] 0.317453368 -0.177881678
> x = rnorm(50,0,1)
> plot(x)
3: 若 X 服從 N(5,11),試求P( X < 0),P(11 < X < 18)
解答:
第一個引數的含義是x<=n(x<n)
注意pnorm()中的引數以及其的實際意義!
> pnorm(5,sqrt(11))-pnorm(0,5,sqrt(11))
[1] 0.8880148
> pnorm(18,5,sqrt(11))-pnorm(11,5,sqrt(11))
[1] 0.03517588
****************************************************************************************************************************************
最快的腳步不是跨越,而是繼續,最慢的步伐不是小步,而是徘徊。
****************************************************************************************************************************************