為什么要處理敏感詞
做為SEO的正規軍,必須要每天都跟關鍵詞打交道的。而且為了守護這人間的正義,我們的站點是不允許出現敏感詞的。否則就非常容易被相關部門把網站給GG了,除非站點和域名都是在國外的,并且你做的就是是這個的話就無視我接下來的內容吧。
如果做過幾年的seo,不難發現有很多的站點就是一個敏感詞的問題被干掉的,有的甚至就因為某個網頁里面出現了一個敏感詞而導致整站被干的。這種具體是什么敏感詞大家想想應該就知道了。
什么是敏感詞
敏感詞一般是指帶有敏感政治傾向(或反執政黨傾向)、暴力傾向、不健康色彩的詞或不文明語,也有一些網站根據自身實際情況,設定一些只適用于本網站的特殊敏感詞。一般有以下幾種:
色情類
民生類
反動類
政治類
暴恐類
廣告類
醫療類
特殊網址
那么,以上這些詞庫如果整理出來的話,估計得有個幾十萬甚至更多,反正新浪的似乎已經有上百萬的敏感詞了。如果要對這些詞進行處理的話無疑是一個大工程。
一般對于敏感詞的處理有兩種方式,第一種是直接刪除包含敏感詞的關鍵詞和內容,第二種是對敏感詞進行替換,比如替換為***符號。但是不管哪種方式進行處理,首先都需要實現快速的找到敏感詞,比如你有500萬的關鍵詞需要進行過濾,那么如果人工去看的話,這無疑是天方夜譚。估計公司都倒閉了這批詞還沒過濾完呢。這種時候就需要使用技術的力量了,讓程序幫我們來干就好了。但是程序也是有效率問題的,那么如何高效的進行搜索發現呢?
如何處理敏感詞
這里給大家介紹一個高效快速的算法,Trie樹算法,這個算法也叫字典樹或前綴樹。可以給作為seoer的小伙伴們說的是這個算法在SEO中的很多地方都可以發揮很大的效果哦,而不僅僅是處理敏感詞。那么先來說說這個算法吧,這個大家理解為前綴樹算法可能更好些哈。大概長這樣的(老外的東西就喜歡用英文做演示)
它的構造過程是這樣的
添加節點的時候是這樣的
查詢的時候是這樣的,比如我們查詢關鍵詞code,那么它的查詢路徑就是箭頭這樣的。
看不懂?沒關系,不需要你看懂,會用就好啦。
它的優點是:最大限度地減少無謂的字符串比較,查詢效率比哈希表高。
相信看到這里,你也是一臉懵逼的,沒關系。實現的東西只需要交給程序員就好了,你就告訴他我需要這樣的工具。然后讓我們來看看它的威力吧,我在第三期python與SEO實戰課里面演示了如何用它來幫我們過濾敏感詞和批量關鍵詞內鏈添加的操作,之所以還可以進行內鏈添加主要就是因為我自己手工改造了一下這個算法的一些功能。
然后最終的測試效果,對70萬的詞進行過濾只花了3秒鐘就完成了。效率還是很OK的,所以如果你正好有這個需求,不妨讓你們公司的程序員也給實現一個,這個在網絡上也有各種語言的實現了,但是如果要添加一些個性化的功能還是要程序員稍微的進行改造一下的。比如關鍵詞內鏈添加,還有敏感詞替換為***等特殊字符這類功能基本就需要自己實現了。
(內容來源:網絡)


























