如何抓取網頁製作製作?

Tags: 網頁, 格式, 詞典,

一個簡單得不能再簡單的網頁抓取然後製作mdx教程

工具/原料

操作系統:Windows 7 旗艦版64位

抓取工具:wget

文本處理:EditPlus, UltraEdit, TextForever

方法/步驟

獲取網站 index,新建一個txt,內容為要抓取的所有詞條的URL。

txt命名為download.txt。我把這個download.txt和wget.exe(如果你下載的wget是wget+版本號.exe,不妨重命名為wget.exe),這倆文件都放在D:\DOPF下。cmd.exe->CD/D D:\DOPF->wget -i download.txt

下載處理後,得到一共16698個鏈接。

抓取內容同樣的,wget -i download.txt把上面那N個html都抓下來,然後就很簡單了

文本提取觀察可知,詞典條目內容在第一個

之間。

利用TextForever來提取文本。

如何抓取網頁製作製作 mdx 格式詞典

如何抓取網頁製作製作 mdx 格式詞典

如何抓取網頁製作製作 mdx 格式詞典

提取完畢,合併得到的16695個html,這本詞典的製作過程中,我思考了下,不用在“文件內容前加註文件名”,有的情況下,是需要這樣做的,以方便提取keywords,經過測試,還是要在“文件內容後加空行”。

得到dopf-src.txt,對這個txt進行操作,得到可build為mdx的txt。

如何抓取網頁製作製作 mdx 格式詞典

如何抓取網頁製作製作 mdx 格式詞典

製作mdx合併後的文本長這樣:

如何抓取網頁製作製作 mdx 格式詞典

如何抓取網頁製作製作 mdx 格式詞典

詞典是xml,由於MDict PC版不支持xml+css(除非升級內核),我們要把xml標籤替換為html標籤。經過下面一系列的操作。處理後最終的文本是這樣:

如何抓取網頁製作製作 mdx 格式詞典

如何抓取網頁製作製作 mdx 格式詞典

寫css。

如何抓取網頁製作製作 mdx 格式詞典

中途遇到些小問題,一個個解決,最後,成品:

如何抓取網頁製作製作 mdx 格式詞典

是不是比在線的稍微順眼點呢?

如何抓取網頁製作製作 mdx 格式詞典

注意事項

過程有些 tricky,多嘗試就明白了

相關問題答案