『Python』MachineLearning機器學習入門_極小的機器學習應用

阿新 • • 發佈：2017-05-21

highlight 保存數值 out 有意思 port del ear 解方程

一個小知識：

有意思的是，scipy囊括了numpy的命名空間，也就是說所有np.func都可以通過sp.func等價調用。

簡介：

本部分對一個互聯網公司的流量進行擬合處理，學習最基本的機器學習應用。

導入包&路徑設置：

import os
import scipy as sp
import matplotlib.pyplot as plt

data_dir = os.path.join(
    os.path.dirname(os.path.realpath(__file__)), "..", "data")
# __file__ 是用來獲得模塊所在的路徑的，這可能得到的是一個相對路徑，
# os.path.dirname(__file__) ，相對路徑時返回值為空，
# 為了得到絕對路徑，需要 os.path.dirname(os.path.realpath(__file__)）。
# .realpath得到完整路徑加文件名
# .dirname會去掉腳本名，只保留路徑
# print(os.path.realpath(__file__))
# print(os.path.dirname(os.path.realpath(__file__)))

讀入&清洗數據：

這裏沒有采用原書的讀取方式，似乎原作者不知道這樣寫更為簡潔：

# data = sp.genfromtxt(os.path.join(data_dir, "web_traffic.tsv"), delimiter="\t")
# x = data[:,0]
# y = data[:,1]

# 和上面三行等價
x,y = sp.loadtxt(os.path.join(data_dir, "web_traffic.tsv"), delimiter="\t",unpack=True)

print("非法數據：", sp.sum(sp.isnan(y)))    # 統計nan缺失
x = x[~sp.isnan(y)]                        # 布爾索引
y = y[~sp.isnan(y)]                        # 布爾索引

繪圖函數：

這個函數寫的很精妙，有不少使用了python高級技巧的地方，值得學習：

list+zip的運用，list生成器的運用等等

順便一提，sp.poly1d()生成對象有屬性f.order，可以查看自身的階數。

colors = [‘g‘, ‘k‘, ‘b‘, ‘m‘, ‘r‘] #<-----------
linestyles = [‘-‘, ‘-.‘, ‘--‘, ‘:‘, ‘-‘] #<-----------

def plot_models(x, y, models, fname, mx=None, ymax=None, xmin=None):
    ‘‘‘
    繪制原數據散點圖和擬合線圖
    :param x:        橫坐標 
    :param y:        縱坐標
    :param models:   擬合線（list傳入）
    :param fname:    保存圖像名
    :param mx:       擬合線x的list是否給定了 
    :param ymax:     y軸上限
    :param xmin:     x軸下限
    :return:         None
    ‘‘‘
    plt.clf()                                                         # 清空當前坐標上圖像
    plt.scatter(x, y, s=10, alpha=1, marker=‘.‘)
    # c:散點的顏色
    # s：散點的大小
    # alpha:是透明程度
    # plt.title("上個月網絡流量圖")
    plt.xlabel("Time")
    plt.ylabel("Hits/hour")
    plt.xticks(
        [w*7*24 for w in range(10)], ["week %i" % w for w in range(10)])

    if models:                                                       # 是不是繪制擬合線
        if mx is None:
            mx = sp.linspace(0, x[-1], 1000)
        for model, style, color in zip(models, linestyles, colors): #<-----------
            plt.plot(mx, model(mx), linestyle=style, linewidth=2, c=color) #<-----------

        plt.legend(["d=%i" % m.order for m in models], loc="upper left") #<-----------
    plt.autoscale(tight=True)
    plt.ylim(ymin=0)
    if ymax:
        plt.ylim(ymax=ymax)
    if xmin:
        plt.xlim(xmin=xmin)
    plt.grid(True, linestyle=‘-‘, color=‘0.75‘) #<-----------        # 網格線設置，color應該是灰度
    plt.savefig(fname)

全數據繪圖：

# 繪制原始數據散點圖
plot_models(x, y, None, os.path.join( "..", "1400_01_01.png"))

fp1, res, rank, sv, rcond = sp.polyfit(x, y, 1, full=True)
print("擬合參數： %s" % fp1)
print("誤差數值： %s" % res)
f1 = sp.poly1d(fp1)
f2 = sp.poly1d(sp.polyfit(x, y, 2))
f3 = sp.poly1d(sp.polyfit(x, y, 3))
f10 = sp.poly1d(sp.polyfit(x, y, 10))
f100 = sp.poly1d(sp.polyfit(x, y, 100))

plot_models(x, y, [f1], os.path.join("..", "1400_01_02.png"))
plot_models(x, y, [f1, f2], os.path.join("..", "1400_01_03.png"))
plot_models(x, y, [f1, f2, f3, f10, f100], os.path.join("..", "1400_01_04.png"))

轉折點處理：

分離轉折點前後的數據：

‘‘‘
轉折點處理部分
‘‘‘
inflection = 3.5*7*24
xa = x[:inflection]
ya = y[:inflection]
xb = x[inflection:]
yb = y[inflection:]       # 註意切片的寫法，沒有逗號

轉折點前後分批處理：

# 轉折點前一階擬合
fa = sp.poly1d(sp.polyfit(xa, ya, 1))
# 轉折點後一階擬合
fb = sp.poly1d(sp.polyfit(xb, yb, 1))
plot_models(x, y, [fa, fb], os.path.join("..", "1400_01_05.png"))

# 平方差
def error(f, x, y):
    return sp.sum(sp.sum(f(x) - y)**2) #<-----------

print("全數據點誤差統計：")
for f in [f1, f2, f3, f10, f100]:
    print("Error d=%i: %f" % (f.order, error(f, x, y)))

print("轉折點後誤差統計：")
for f in [f1, f2, f3, f10, f100]:
    print("Error d=%i: %f" % (f.order, error(f, xb, yb)))

print("一階拼接擬合誤差統計： %f" % (error(fa, xa, ya) + error(fb, xb, yb)))

‘‘‘
趨勢預測部分
‘‘‘
# 全數據6周預測
plot_models(x, y, [f1, f2, f3, f10, f100], os.path.join("..", "1400_01_06.png"),
            mx=sp.linspace(0 , 6*7*24, 100),
            ymax=10000, xmin=0)
# 全模型轉折點後擬合
fb1 = fb
fb2 = sp.poly1d(sp.polyfit(xb, yb, 2))
fb3 = sp.poly1d(sp.polyfit(xb, yb, 3))
fb10 = sp.poly1d(sp.polyfit(xb ,yb, 10))
fb100 = sp.poly1d(sp.polyfit(xb, yb, 100))
print("全模型轉折點後誤差統計：")
for f in [fb1, fb2, fb3, fb10, fb100]:
    print("Error d=%i： %f" % (f.order, error(f, xb, yb)))

# 轉折點後數據6周預測
plot_models(
    x, y, [fb1, fb2, fb3, fb10, fb100], os.path.join("..", "1400_01_07.png"),
    mx=sp.linspace(0, 6*7*24, 100),
    ymax=10000, xmin=0)

技術分享

折點後面的數據單獨處理：

sp.random.permutation()這個函數返回打亂的input

import scipy as sp
sp.random.permutation([1,2,3,4,5])
# Out[3]: 
# array([4, 5, 1, 2, 3])

30%用於測試，70%用於擬合，這裏隨機分離數據

‘‘‘
轉折點後數據
部分用於訓練
部分用於測試
‘‘‘
frac = 0.3
split_idx = int(frac*len(xb))                             # 30%的數據量
shuffled = sp.random.permutation(list(range(len(xb))))    # 全xb的index亂序
test = sorted(shuffled[:split_idx])                       # 亂序index提取前30%，後排序
train = sorted(shuffled[split_idx:])                      # 亂序index提取後70%。後排序

擬合對比：

fbt1 = sp.poly1d(sp.polyfit(xb[train], yb[train], 1))
fbt2 = sp.poly1d(sp.polyfit(xb[train], yb[train], 2))
fbt3 = sp.poly1d(sp.polyfit(xb[train], yb[train], 3))
fbt10 = sp.poly1d(sp.polyfit(xb[train], yb[train], 10))
fbt100 = sp.poly1d(sp.polyfit(xb[train], yb[train], 100))

print("測試點誤差：")
for f in [fbt1, fbt2, fbt3, fbt10, fbt100]:
    print("Error d=%i： %f" % (f.order, error(f, xb[test], yb[test])))
# 繪制部分訓練模型擬合圖
plot_models(x, y, [fbt1, fbt2, fbt3, fbt10, fbt100], os.path.join(‘..‘, ‘1400_01_08.png‘),
            mx=sp.linspace(0, 6*7*24),
            ymax=10000, xmin=0)

技術分享

優化器解方程：

from scipy.optimize import fsolve
# 想要預測訪問量100000的時間
print(fbt2)
print(fbt2-100000)
reached_max = fsolve(fbt2 - 100000, 800) / (7*24)
print("100,000 hits/hour excpeted at week %f" % reached_max)

『Python』MachineLearning機器學習入門_極小的機器學習應用

highlight 保存數值 out 有意思 port del ear 解方程一個小知識：有意思的是，scipy囊括了numpy的命名空間，也就是說所有np.func都可以通過sp.func等價調用。簡介：本部分對一個互聯網公司的流量進行擬合處理，學習最基本的機器

『Python』MachineLearning機器學習入門_效率對比

cnblogs 新的 arange 學習 nump 部分運行 orm blog 效率對比：老生常談了，不過這次用了個新的模塊，運行時間測試模塊timeti： 1 import timeit 2 3 normal = timeit.timeit(‘sum(x*

『Python』Numpy學習指南第九章_使用Matplotlib繪圖

from png 坐標 img 線圖 ylabel linspace 對數 nbsp 坐標軸調節以及刻度調節參見：『Python』PIL&plt圖像處理_矩陣轉化&保存圖清晰度調整數據生成： 1 import numpy as np 2 import

『python』科學計算專項_科學繪圖庫matplotlib學習之繪制動畫（待續）

同時 func 動作 .com block save init [] first 示例代碼簡單調用繪圖 from matplotlib import pyplot as plt import matplotlib.animation as animation impor

『python』科學計算專項_科學繪圖庫matplotlib學習(下)

時序 nco 字符 color 由於 enc -- angle fig 基本的讀取csv文件並繪制餅圖由於之前沒有過實際處理的經驗，所以這個程序還是值得一看，涉及了處理表格數據的基本方法： import matplotlib.pyplot as plt import p

『Python』Numpy學習指南第三章__常用函數

第一個 indices first 填充 del lib ida like otl 感覺心情漸漸變好了，加油！np.eye(2)np.savetxt(‘eye.txt‘,i2)c,v = np.loadtxt(‘data.csv‘, delimiter=‘,‘, useco

『python』OpenCV3計算機視覺庫安裝

targe cond 最新 cnblogs enc 2.0 sent lan oca 1.下載OpenCV： https://codeload.github.com/Itseez/opencv/zip/3.0.0 2.解壓下載相關依賴： sudo apt-get inst

『TensorFlow』函數查詢列表_數值計算

code -1 .com term tran als pos ble sparse 基本算術運算操作描述 tf.add(x, y, name=None) 求和 tf.sub(x, y, name=None) 減法 tf.mul(x, y, name=

『Python』常用函數實踐筆記

sta lca extend article next() idea array cep 數組元素庫安裝： 1）.pip & conda 2）.在win10下手動安裝python庫的方法：『python』計算機視覺_OpenCV3庫安裝原生： list.app

『python』計算機視覺_OpenCV3庫安裝

找不到新建 imp size libs redis pac nload .py Anaconda打包安裝： conda install --channel https://conda.anaconda.org/menpo opencv3 驗證： >>&g

『python』計算機視覺_OpenCV3目標檢測器（待續）

類型 print import 目標 return 視覺 != read svm bulid-in目標檢測器調用內部函數進行人體檢測，實際效果並不好。民工三連： hog = cv2.HOGDescriptor()

機器學習入門之四：機器學習的方法-神經網絡（轉載）

轉載 bsp 圖像 src nbsp 加速數值 str 我們　　轉自飛鳥各投林　　神經網絡　　　　神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。現在，攜著“深度學習”之勢，神

『cs231n』作業2選講_通過代碼理解優化器

cit err red numpy 優化器包含 iteration mom 效果 1)、Adagrad一種自適應學習率算法，實現代碼如下： cache += dx**2 x += - learning_rate * dx / (np.sqrt(cache) + eps

『Python』多進程處理

rgs map multicore 變量實例化 read reat 嘗試學習嘗試學習python的多進程模組，對比多線程，大概的區別在：　　1.多進程的處理速度更快　　2.多進程的各個子進程之間交換數據很不方便多進程調用方式　　進程基本使用multicor

『python』隨機數專項(待續)

pri replace san html nbsp rep mil 元素 print random random.randrange ([start,] stop [,step]) # 輸出 100 <= number < 1000 間的偶數 print "r

『Python』內存分析_List對象內存占用分析

我們 nbsp 黑盒子切片 color div int HR HA 『Python』內存分析_下_list和array的內存增長模式 list聲明後結構大體分為3部分，變量名稱--list對象（結構性數據+指針數組）--list內容，其中id表示的是list對象的位置，

『Python』內存分析_list和array的內存增長模式

enum rate 列表判斷 arrays range time() 比較由於『Python』內存分析_List對象內存占用分析在Python中，列表是一個動態的指針數組，而array模塊所提供的array對象則是保存相同類型的數值的動態數組。由於array直接保

『TensorFlow』分布式訓練_其二_多GPU並行demo分析（待續）

print all set represent proto copyright keys 20M runners 建議比對『MXNet』第七彈_多GPU並行程序設計 models/tutorials/image/cifar10/cifer10_multi_gpu-trai

Python網路爬蟲與資訊提取_爬蟲例項（學習筆記）

慕課課程學習筆記 1. 京東商品頁面的爬取 1.採用get()方法，獲取Response物件； import requests url = 'https://item.jd.com/100000947807.html' r = requests.get(url)

[機器學習入門] 李巨集毅機器學習筆記-1（Learning Map 課程導覽圖）

在此就不介紹機器學習的概念了。 Learning Map（學習導圖） PDF VIDEO 先來看一張李大大的總圖↓ 鑑於看起來不是很直觀，我“照虎

『Python』MachineLearning機器學習入門_極小的機器學習應用

一個小知識：

簡介：

導入包&路徑設置：

讀入&清洗數據：

繪圖函數：

全數據繪圖：

轉折點處理：

折點後面的數據單獨處理：

相關推薦