爬蟲技術違法嗎?
網絡爬蟲合法嗎
是合法的,儘管用吧。
爬蟲功能的合法性如何?在網上看到大多數人都說爬蟲功能合法,我想知道爬蟲功能怎麼用不合法?除了抓取不 20分
爬蟲是用來批量獲得網頁上的公開信息的,也就是前端顯示的數據信息。因此,既然本身就是公開信息,其實就像瀏覽器一樣,瀏覽器解析並顯示了頁面內容,爬蟲也是一樣,只不過爬蟲會批量下載而已,所以是合法的。
不合法的情況就是配合爬蟲,利用黑客技術攻擊網站後臺,竊取後臺數據。比如用戶數據等。所以爬蟲本身是合法的,只是看具體使用在哪方面了。
爬蟲功能在什麼情況下違法?
不會。
網管發現你的爬蟲消耗他們的頻道所以封了你的IP。
可用不同代理爬帖,也可儘量隱形。去谷歌找 "php8legs 網絡蜘蛛忍者隱身術“。
超級課程表違法嗎,它通過爬蟲技術實現,
不算違法 只是別人上傳了個人的課程表 他做了一個資源整合 把這些數據共享出來了
開發網絡爬蟲應該怎樣選擇爬蟲框架
有些人問,開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的?這裡按照我的經驗隨便扯淡一下:
上面說的爬蟲,基本可以分3類:
1.分佈式爬蟲:Nutch
2.JAVA單機爬蟲:Crawler4j、WebMagic、WebCollector
3. 非JAVA單機爬蟲:scrapy
第一類:分佈式爬蟲
爬蟲使用分佈式,主要是解決兩個問題:
1)海量URL管理
2)網速
現在比較流行的分佈式爬蟲,是Apache的Nutch。但是對於大多數用戶來說,Nutch是這幾類爬蟲裡,最不好的選擇,理由如下:
1)Nutch是為搜索引擎設計的爬蟲,大多數用戶是需要一個做精準數據爬取(精抽取)的爬蟲。Nutch運行的一套流程裡,有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說,用Nutch做數據抽取,會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發,來使得它適用於精抽取的業務,基本上就要破壞Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新寫一個分佈式爬蟲框架了。
2)Nutch依賴hadoop運行,hadoop本身會消耗很多的時間。如果集群機器數量較少,爬取速度反而不如單機爬蟲快。
3)Nutch雖然有一套插件機制,而且作為亮點宣傳。可以看到一些開源的Nutch插件,提供精抽取的功能。但是開發過Nutch插件的人都知道,Nutch的插件系統有多蹩腳。利用反射的機制來加載和調用插件,使得程序的編寫和調試都變得異常困難,更別說在上面開發一套複雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點,而這五六個掛載點都是為了搜索引擎服務的,並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件,都是掛載在“頁面解析”(parser)這個掛載點的,這個掛載點其實是為了解析鏈接(為後續爬取提供URL),以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。
4)用Nutch進行爬蟲的二次開發,爬蟲的編寫和調試所需的時間,往往是單機爬蟲所需的十倍時間不止。瞭解Nutch源碼的學習成本很高,何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。
5)很多人說Nutch2有gora,可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了,這裡說的持久化數據,是指將URL信息(URL管理所需要的數據)存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說,URL信息存在哪裡無所謂。
6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1,但是這個版本綁定了gora-0.3。如果想用hbase配合nutch(大多數人用nutch2就是為了用hbase),只能使用0.90版本左右的hbase,相應的就要將hadoop版本降到had......
用爬蟲軟件抓取一個網站內容合法嗎
按理說不合法,但是你可以修改顯示的內容啊,只要網站不完全一樣應該就沒事
python網絡爬蟲可以幹啥
爬蟲可以抓取網絡上的數據啊。爬蟲可以用很多種編程語言實現,python只是一種。所以你想知道的是網絡爬蟲可以幹什麼。
他比如證券交易數據,天氣數據,網站用戶數據,圖片。
拿到這些數據之後你就可以做下一步工作了。
你去看看這裡就明白了。baike.baidu.com/view/284853.htm
利用爬蟲程序爬取數據太多會犯法嗎
不會。
網管發現你的爬蟲消耗他們的頻道所以封了你的IP。
可用不同代理爬帖,也可儘量隱形。去谷歌找 "php8legs 網絡蜘蛛忍者隱身術“。
自己寫的爬蟲,抓取網上收費的內容算不算違法?
如果收費的網站你有賬號,用自己的賬號抓就不違法,但是不能再賣了。
我想開發一個新聞網站。數據是用爬蟲技術爬別人網站的內容。假如某一天人家網站關了。是不是我的網站數據 10分
人家的網站關了,不影響你之前已經抓取過的內容。
只是你沒法繼續抓取了,你的網站就停止更新了。