新浪微博刪帖機制分析?

Tags: 微博, 新浪, 機制,

鑑於微博API的限制,研究人員主要跟蹤了最可能會發敏感帖子的敏感使用者組。從2012年7月20日到9月8日,研究人員利用API以每分鐘一次的頻率搜尋3500位使用者的時間線,以每四秒一次的頻率搜尋公共時間線。由於新浪微博不支援匿名查詢,所以他們利用Tor隱藏IP後建立虛假使用者帳號。他們共收集了238萬用戶時間線帖子,刪貼率是12.75%。考慮到新浪需要處理的大資料集規模,發帖後5到10分鐘的刪貼峰值,尤其是考慮到刪貼無法完全用自動方式處理,新浪是如何做到迅速發現和刪除敏感帖子?研究人員提出了六個假說:

方法/步驟

新浪微博有一個監視關鍵詞列表,審查員將會瀏覽包含這些關鍵詞的帖子決定是否刪除。

微博有針對性的監視訊繁發敏感帖子的使用者。

在發現一個敏感帖子之後,審查員可以追溯所有相關的轉貼,可以一次性的全部刪除

通過關鍵詞搜尋,微博刪除了追溯的帖子導致了特定關鍵詞在短時間內出現刪除峰值。

審查員工作是分散式的,相對獨立,其中部分人可能是兼職。

刪貼速度與主題有關,根據主題的敏感度刪除速度存在差異。研究人員利用自然語言處理技術進行刪貼主題分析,發現某些熱門主題帖子比另外一些主題更快被刪除(如圖所示),如群交、北京暴雨死亡人數和司法獨立等都在極端時間內刪除了。

研究人員總結了微博的過濾機制,其中主動過濾機制包括:顯式過濾,微博通知發貼人他們的帖子內容違反了內容政策(但有些時候使用者並不清楚到底是因為什麼敏感詞受阻);隱式過濾,微博需要在手動審查帖子後才會允許帖子上線;偽裝發帖成功,其他使用者看不到這位使用者的帖子.

相關問題答案