鑑於微博API的限制,研究人員主要跟蹤了最可能會發敏感帖子的敏感使用者組。從2012年7月20日到9月8日,研究人員利用API以每分鐘一次的頻率搜尋3500位使用者的時間線,以每四秒一次的頻率搜尋公共時間線。由於新浪微博不支援匿名查詢,所以他們利用Tor隱藏IP後建立虛假使用者帳號。他們共收集了238萬用戶時間線帖子,刪貼率是12.75%。考慮到新浪需要處理的大資料集規模,發帖後5到10分鐘的刪貼峰值,尤其是考慮到刪貼無法完全用自動方式處理,新浪是如何做到迅速發現和刪除敏感帖子?研究人員提出了六個假說:
方法/步驟
新浪微博有一個監視關鍵詞列表,審查員將會瀏覽包含這些關鍵詞的帖子決定是否刪除。
微博有針對性的監視訊繁發敏感帖子的使用者。
在發現一個敏感帖子之後,審查員可以追溯所有相關的轉貼,可以一次性的全部刪除
通過關鍵詞搜尋,微博刪除了追溯的帖子導致了特定關鍵詞在短時間內出現刪除峰值。
審查員工作是分散式的,相對獨立,其中部分人可能是兼職。
刪貼速度與主題有關,根據主題的敏感度刪除速度存在差異。研究人員利用自然語言處理技術進行刪貼主題分析,發現某些熱門主題帖子比另外一些主題更快被刪除(如圖所示),如群交、北京暴雨死亡人數和司法獨立等都在極端時間內刪除了。
研究人員總結了微博的過濾機制,其中主動過濾機制包括:顯式過濾,微博通知發貼人他們的帖子內容違反了內容政策(但有些時候使用者並不清楚到底是因為什麼敏感詞受阻);隱式過濾,微博需要在手動審查帖子後才會允許帖子上線;偽裝發帖成功,其他使用者看不到這位使用者的帖子.