1. 程式人生 > 其它 >【專案】Github上的一個簡單專案:用人工智慧預測大學錄取概率

【專案】Github上的一個簡單專案:用人工智慧預測大學錄取概率

每年有超過200萬的大學申請被提交,每個申請都有一定的機遇與風險。即使是最高學術水平的學生的申請也存在隨機因素,因此往往會面臨困難的局面——大學招生中固有的精英管理體制會給很多申請者帶來不確定性、懷疑和焦慮。

當然,有很多因素影響著錄取,但有兩個因素在決定錄取率方面有很大的影響:GPA和SAT/ACT成績。雖然其他因素也在考慮之中,但在統計學上不可否認的是,這兩項指標對學生的申請有著不可思議的重要性——儘管沒有人真正知道這些指標是如何被大學評判和過濾的。

但最終,這兩項指標可以用資料科學輕鬆地評估資料,以分析趨勢和關聯。因此,我決定嘗試去預測大學的錄取情況。

雖然有成千上萬的統計方法來分析GPA和SAT/ACT成績和申請結果之間的趨勢,但我選擇了一個最近流行的預測方法:機器學習。

在Tensorflow中實現了一個架構之後,我在卡內基梅隆大學收集的資料集上訓練了我的網路。

Chancey是基於GPA和SAT2400資料的大學招生錄取率的預測器。令人驚訝的是,在大約15萬次迭代之後(在GeForce 1060 GPU上花費了1分鐘),大多數大學在這個帶有50個樣本資料的模型上輕鬆達到80%的準確率。雖然這看起來並不算準確,但它足以得出一些結論,而且肯定比任意的線性模型更好。

準備要求:

  • Python (最好是3.x版本)
  • Tensorflow (最好使用最新版本, 推薦GPU或高效能的CPU)
  • console-logging python模組,可使用pip安裝
  • numpy, 強力推薦使用Python 3的發行版Anaconda
  • flask,可使用pip安裝

它是如何工作的 這可能是你看到的最簡單的神經網路。我只是簡單地實現了深度神經網路分類器,但我沒有使用傳統方法來處理數百個節點,而是將這些引數打亂,並將其帶到了10-20-10的隱藏層。輸入都是標準數字。

在GPA+SAT資料語料庫中進行訓練後,它可以預測錄取情況。

訓練 請參閱neuralnet資料夾中的README檔案。你需要在目錄中訪問main.py。例如neuralnet/main.py .. args ..。組裝一個數據集CSV檔案。將1/3的內容剪下成另一個CSV檔案,這個新檔案是你的測試資料集。

將GPA和SAT分數設定的很高

我已經提供了我最初收集的CMU資料集來訓練這個網路。更多關於命名資料集的資訊在README檔案中。

快速統計:Geforce 1060,6gb,150,000步長花費了四分鐘,準確率為78.5%。

損失超過150,000步長的圖表:

縮減損失超過15萬步長(褪色的藍線是交叉驗證,沒有過度擬合和更多訓練的空間)

預測 為了便於使用,我使用Bootstrap 3設計了一個簡單的GUI。python website.py,你需要使用Flack。

總之,它在某種程度上被證明是有用的,該專案的完整原始碼可以在Github上獲得。

Github地址:https://github.com/pshah123/ChanceyNN