第6章 LogisticR/SGDC（乳腺癌檢測）

阿新 • • 發佈：2019-01-05

LogisticRegression原理及演算法

該資料共有569個樣本，每個樣本有11列不同的數值：第一列是檢索的ID，中間9列是與腫瘤相關的醫學特徵，以及一列表徵腫瘤型別的數值。所有9列用於表示腫瘤醫學特質的數值均被量化為1-10之間的數字。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv(r'D:\machinelearningDatasets\BreastCancerLR\Breast cancer.csv')

data.head() 

data.info()
#data.isnull().any().sum()
#plt.matshow(data.corr())

在這裡插入圖片描述

提取特徵和標籤資料：

y = data.iloc[:,1] 是錯誤的，這其實沒有標題，序號也沒有！列索引即使一列也要用範圍提取。
在這裡插入圖片描述

x = data.iloc[:,2:31]
y = data.iloc[:,1:2]

在這裡插入圖片描述

檢視診斷結果中良性和惡性腫瘤個數：

y.diagnosis.value_counts()

在這裡插入圖片描述

劃分資料集：

from sklearn.model_selection import train_test_split
x_train, 
 x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=10)

y = y.values.ravel()

使用交叉驗證優化演算法：

from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score

from sklearn.linear_model import LogisticRegression

for i in ['l1','l2' 
]:
    lgrlist = []
    for j in [1,10,100,1000]:
        lgr = LogisticRegression(C=j, penalty=i)
        lgr_cv_score = cross_val_score(lgr,x_train,y_train,cv=5)
        lgr_cv_score_meanscore = lgr_cv_score.mean()
        lgrlist.append(lgr_cv_score_meanscore)
    plt.plot([1,10,100,1000], lgrlist, label='penalty='+str(i))
    plt.legend()
plt.xlabel('C')
plt.ylabel('score')

在這裡插入圖片描述

lgr = LogisticRegression(C=100, penalty='l1')
lgr_cv_score = cross_val_score(lgr, x_train, y_train, cv=5)
lgr_meanscore = lgr_cv_score.mean()

隨機梯度下降分類演算法：

sklearn.linear_model.SGDClassifier

from sklearn.linear_model import SGDClassifier

for i in ['hinge', 'log', 'modified_huber','squared_loss']:
    SGDClist = []
    for j in ['none','l2','l1','elasticnet']:
        SGDC = SGDClassifier(penalty=j, loss=i, max_iter=1000)
        SGDC_cv_score = cross_val_score(SGDC,x_train,y_train,cv=5)
        SGDC_cv_score_meanscore = SGDC_cv_score.mean()
        SGDClist.append(SGDC_cv_score_meanscore)
    plt.plot(['none','l2','l1','elasticnet'], SGDClist, label='loss='+str(i))
    plt.legend()
plt.xlabel('penalty')
plt.ylabel('score')

在這裡插入圖片描述

SGDC = SGDClassifier(loss='log', penalty='l2', max_iter=1000)
SGDC_cv_score = cross_val_score(SGDC, x_train, y_train, cv=5)
SGDC_meanscore = SGDC_cv_score.mean()

評估分類演算法：

evaluating=pd.DataFrame({'lr':lr_cv_test_score,'SGDC':SGDC_cv_test_score})
evaluating

在這裡插入圖片描述

evaluating.plot.kde()

在這裡插入圖片描述

evaluating.mean().sort_values(ascending=False)

在這裡插入圖片描述

在測試集上驗證模型效能：

#lgr
lgr.fit(x_train,y_train)
lgr_y_predict_score = lgr.score(x_test, y_test)

#SGDC
SGDC.fit(x_train,y_train)
SGDC_y_predict_score = SGDC.score(x_test, y_test)

predict_score = {
        'lgr':lgr_y_predict_score,
        'SGDC':SGDC_y_predict_score
        }
predict_score = pd.DataFrame(predict_score, index=['score']).transpose()
predict_score.sort_values(by='score',ascending = False)

在這裡插入圖片描述

可見邏輯迴歸分類比隨機梯度下降分類表現更好。

繪製學習曲線：

import sys
sys.path.append(r'C:\Users\Qiuyi\Desktop\scikit-learn code\code\common')
from utils import plot_learning_curve
from sklearn.model_selection import ShuffleSplit
title = 'Learning Curves (logisticRegression)'
cv = ShuffleSplit(n_splits=10, test_size=0.25, random_state=0)
plot_learning_curve(plt,lgr,title,x,y,ylim=(0.7, 1.01), cv=cv, n_jobs=4)

在這裡插入圖片描述
訓練樣本評分高，交叉驗證樣本評分也高，但兩評分之間間隙還比較大，可以採用更多的資料來訓練模型。

第6章 LogisticR/SGDC（乳腺癌檢測）

LogisticRegression原理及演算法該資料共有569個樣本，每個樣本有11列不同的數值：第一列是檢索的ID，中間9列是與腫瘤相關的醫學特徵，以及一列表徵腫瘤型別的數值。所有9列用於表示腫瘤醫學特質的數值均被量化為1-10之間的數字。 import pandas as p

第8章 SVC/LinearSVC（乳腺癌檢測）

資料預處理不同於匯入 scikit-learn 自有乳腺癌資料集，採用 pandas 讀取下載的資料集。 # 載入資料 from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() X

《Java從小白到大牛精簡版》之第6章運算符（上）

java java小白 java初學者 Java語言中的運算符（也稱操作符）在風格和功能上都與C 和C++極為相似。本章為大家介紹Java語言中一些主要的運算符，包括算術運算符、關系運算符、邏輯運算符、位運算符和其他運算符。6.1 算術運算符Java中的算術運算符主要用來組織數值類型數據的算術運

第6章優先佇列（堆）

優先佇列優先佇列資料結構屬於電腦科學中最精緻的一種 6.1 模型優先佇列允許至少兩種操作：插入和刪除最小者 6.2 一些簡單的實現優先佇列的插入和刪除最小者的最壞情形時間均為o(logN)，但插入操作實際上將花費平均時間，若無刪除操作的干擾，該結構的實現將以線性時間建

重讀《學習JavaScript資料結構與演算法-第三版》- 第6章連結串列（一）

定場詩傷情最是晚涼天，憔悴廝人不堪言；邀酒摧腸三杯醉.尋香驚夢五更寒。釵頭鳳斜卿有淚，荼蘼花了我無緣；小樓寂寞新雨月.也難如鉤也難圓。前言本章為重讀《學習JavaScript資料結構與演算法》的系列文章，該章節主要講述資料結構-連結串列，以及實現連結串列的過程和原理。連結串列連結串列，為什麼要

2017.12.8 軟件工程-----第五章總體設計（復習）

中一計劃整體推薦滿足集中用戶重要文檔軟件工程-----第五章總體設計（復習）（1）概要經過需求分析階段的工作，系統必須“做什麽”已經很清楚了，現在是決定“怎樣做”的時候了。總體設計的基本目的是系統應該如何實現。他最重要的一項工作是設計軟件結構。因此，

概論論與數理統計嚴繼高版第六章習題答案（含過程）

com 概論 img 9.png ima mage bubuko 技術 image 第八題在下一頁概論論與數理統計嚴繼高版第六章習題答案（含過程）

概率論與數理統計嚴繼高版第七章習題答案（含過程）

src mage 習題答案 .com 概率技術分享統計 http com 無7.3（不考）總習題我只有草稿，忘記帶了，想起來就更概率論與數理統計嚴繼高版第七章習題答案（含過程）

JavaSE習題第八章執行緒（未完成）

問答題 1.執行緒和程序是什麼關係？　　程序是程式的一次動態執行，對應了從程式碼載入，執行至執行完畢的一個完整的過程　　執行緒是比程序更小的執行單位，一個程序在其執行過程中可以產生多個執行緒，形成多條執行線索 2.執行緒有幾種狀態？　　4種，新建，執行，中斷，死亡 3.引起執行緒中斷的常見原

【練習題】第四章--互動設計（Think Python）

1.寫一個函式叫做square（譯者注：就是正方形的意思），有一個名叫t的引數，這個t是一個turtle。用這個turtle來畫一個正方形。寫一個函式呼叫，把bob作為引數傳遞給square，然後再執行這個程式。 code： import turtle def square(t): &n

【練習題】第七章--迭代（Think Python）

相比之下，與其對比x和y是否精確相等，倒不如以下方法更安全：用內建的絕對值函式來計算一下差值的絕對值，也叫做數量級。 if abs(y-x) < epsilon: break 這裡可以讓epsilon的值為like 0.0000001，差值比這個小就說明已經足夠接近了。

【練習題】第五章--條件迴圈（Think Python）

//--地板除。例：5//4=1 %--求模。例：5//3=2 如果你用Python2的話，除法是不一樣的。在兩邊都是整形的時候，常規除法運算子/就會進行地板除法，而兩邊只要有一側是浮點數就會進行浮點除法。複合語句中語句體內的語句數量是不限制的，但至少要有一個。有的時候會遇到一個語句體

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

一、基本內容 1.基本流程決策樹的生成過程是一個遞迴過程，有三種情形會導致遞迴返回（1）當前節點包含的yangben全屬於同一類別，無需劃分；（2）當前屬性集為空，或是所有yangben在所有屬性上的取值相同，無法劃分；（3）當前結點包含的yangben集合為空，不能

《機器學習》周志華學習筆記第三章線性模型（課後習題）python 實現

線性模型一、內容 1.基本形式 2.線性迴歸：均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸：對數機率函式（logistic function）對率函式是任意階可導的凸函式，這是非常重要的性質。 4.線性判別分析（LDA 是一種降維的方法） 5.多分類學習：

《機器學習》周志華學習筆記第八章整合學習（課後習題）python實現

1.個體與整合 1.1同質整合 1.2異質整合 2.boosting:代表AdaBoost演算法 3.Bagging與隨機森林 3.1Bagging 是並行式整合學習方法最著名的代表（基於自主取樣法bootstrap sampling）自己學習時編寫了

《機器學習》周志華學習筆記第五章神經網路（課後習題） python實現

1.神經元模型 2.感知機與多層網路 3.誤差逆傳播演算法 (A)BP演算法：最小化訓練集D上的累積誤差標準BP演算法：更新規則基於單個Ek推導而得兩種策略防止過擬合：（1）早停（通過驗證集來判斷，訓練集誤差降低，驗證集誤差升高）（2）正則化：在誤差目標函式中引入描述網

周志華西瓜書第16章強化學習（習題答案）（轉）

原文轉自： https://blog.csdn.net/icefire_tyh/article/details/53691569

Essential c++ 第七章異常處理（exception handling）課後練習

練習7.1 請找出以下函式中所有可能發生錯誤的地方。 int *alloc_and_init(string file_name) { ifstream infile(file_name.c_str()); int elem_cnt; infile >> elem_c

讀書筆記 ---- 《計算機網路—謝希仁第7版》---- 第4章網路層（上篇）

上一篇：資料鏈路層：https://blog.csdn.net/pcwl1206/article/details/83863677 下一篇：網路層下篇：https://blog.csdn.net/pcwl1206/article/details/84098381 本章節目錄： 4.1&n

《Java多執行緒程式設計實戰》—— 第8章 Active Object（主動物件）模式

Active Object模式是一種非同步程式設計模式。（跟Promise模式有什麼區別呢？）通過對方法的呼叫與方法的執行進行解耦來提高併發性。類圖當Active Object模式對外暴露的非同步方法被呼叫時，與該方法呼叫相關的上下文資訊，包括被呼叫的非同步方法名、引數等，會被

第6章 LogisticR/SGDC（乳腺癌檢測）

相關推薦