新浪微博刪帖機制分析?

Tags: 微博, 新浪, 機制,

鑑於微博API的限制，研究人員主要跟蹤了最可能會發敏感帖子的敏感使用者組。從2012年7月20日到9月8日，研究人員利用API以每分鐘一次的頻率搜尋3500位使用者的時間線，以每四秒一次的頻率搜尋公共時間線。由於新浪微博不支援匿名查詢，所以他們利用Tor隱藏IP後建立虛假使用者帳號。他們共收集了238萬用戶時間線帖子，刪貼率是12.75%。考慮到新浪需要處理的大資料集規模，發帖後5到10分鐘的刪貼峰值，尤其是考慮到刪貼無法完全用自動方式處理，新浪是如何做到迅速發現和刪除敏感帖子？研究人員提出了六個假說：

方法/步驟

新浪微博有一個監視關鍵詞列表，審查員將會瀏覽包含這些關鍵詞的帖子決定是否刪除。

微博有針對性的監視訊繁發敏感帖子的使用者。

在發現一個敏感帖子之後，審查員可以追溯所有相關的轉貼，可以一次性的全部刪除

通過關鍵詞搜尋，微博刪除了追溯的帖子導致了特定關鍵詞在短時間內出現刪除峰值。

審查員工作是分散式的，相對獨立，其中部分人可能是兼職。

刪貼速度與主題有關，根據主題的敏感度刪除速度存在差異。研究人員利用自然語言處理技術進行刪貼主題分析，發現某些熱門主題帖子比另外一些主題更快被刪除（如圖所示），如群交、北京暴雨死亡人數和司法獨立等都在極端時間內刪除了。

研究人員總結了微博的過濾機制，其中主動過濾機制包括：顯式過濾，微博通知發貼人他們的帖子內容違反了內容政策（但有些時候使用者並不清楚到底是因為什麼敏感詞受阻）；隱式過濾，微博需要在手動審查帖子後才會允許帖子上線；偽裝發帖成功，其他使用者看不到這位使用者的帖子.

微博, 新浪, 機制, 新浪微博的反爬蟲機制, 新浪微博抽獎機制, 新浪微博案例分析, 新浪微博資料分析, 新浪微博使用者分析, 2015新浪微博使用者分析, 新浪微博頁面訪問分析, 新浪微博粉絲分析工具, 新浪微博產品分析,

相關問題答案

Have any Question?

Let us answer it!