1. 程式人生 > WINDOWS開發 >關鍵詞匹配優化(第2篇)—— 用C#實現demo

關鍵詞匹配優化(第2篇)—— 用C#實現demo

上一篇文章用python實現了計算文字相似度計算的過程,這次用C#做個demo。

不得不說用python是真的方便,不懂計算過程也能實現結果。C#也有類似NumPy的庫:NumSharp。經過測試還是有區別的,有些功能沒有(也可能是因為我沒看文件)。最後還是自己研究計算過程去寫。

用C#寫Excel公式有兩種開發方式:VSTO和ExcelDNA。看了一下VSTO的部署感覺比較麻煩,所以這裡用ExcelDNA的方式。

求兩個詞向量的餘弦相似度的C#程式碼如下

        /// <summary>
        /// 求餘弦相似度,輸入兩個只有1行且列數相同的二維陣列
        /// </summary>
        /// <param name="Vector_a">向量a</param>
        /// <param name="Vector_b">向量b</param>
        /// <returns>返回兩個向量的餘弦相似度</returns>
        public static double cos_sim(int[,] Vector_a,int[,] Vector_b)
        {
            double num = 0;
            //計算向量a和 向量b轉置 的乘積
            //python中的:float(vector_a * vector_b.T)
            for(int i = 0; i < Vector_a.GetLength(1); i++)
            {
                num += Vector_a[0,i] * Vector_b[0,i];
            }
            
            double denom =  norm(Vector_a) * norm(Vector_b);
            double sim = num / denom;
            return sim;
        }

        /// <summary>
        /// 求向量範數,輸入一個只有1行的二維陣列
        /// </summary>
        /// <param name="Vector">輸入的向量</param>
        /// <returns>返回向量的範數</returns>
        //類似NumPy中的np.linalg.norm
        public static double norm(int[,] Vector)
        {
            double SumI = 0;
            foreach(int i in Vector)
            {
                SumI += i * i;
            }

            return Math.Sqrt(SumI);
        }

這個只是初步實現了餘弦相似度計算,還有優化的空間。比如這裡輸入的向量是一行的二維陣列,改成用一維陣列或者list都可以,型別也可以不用int改成double。

輸入的部分先用Excel選區輸入,後面會改到資料庫中,實現效果如下:

技術分享圖片

返回的字串後面跟的數字是兩個詞的相似度,後續刪掉即可。

前面的單元格區域“測試!A1:JH154”是目標關鍵詞和向量,之後會把這部分去掉,整理一下儲存到資料庫中。按照目前的one-hot編碼,後續增加關鍵詞時直接給每個關鍵詞後加一個值是0的維度即可,如果改成tf-idf編碼,就需要在增加關鍵詞後重新計算向量了。不過怎麼說也比維護100多個elseif要方便,後續優化還可以把拆分字換成分詞,減少計算量,提高準確度。