如何抓取網頁製作製作?

一個簡單得不能再簡單的網頁抓取然後製作mdx教程

操作系統：Windows 7 旗艦版64位

抓取工具：wget

文本處理：EditPlus, UltraEdit, TextForever

獲取網站 index，新建一個txt，內容為要抓取的所有詞條的URL。

txt命名為download.txt。我把這個download.txt和wget.exe（如果你下載的wget是wget+版本號.exe，不妨重命名為wget.exe），這倆文件都放在D:\DOPF下。cmd.exe->CD/D D:\DOPF->wget -i download.txt

下載處理後，得到一共16698個鏈接。

抓取內容同樣的，wget -i download.txt把上面那N個html都抓下來，然後就很簡單了

文本提取觀察可知，詞典條目內容在第一個

和
之間。

利用TextForever來提取文本。

提取完畢，合併得到的16695個html，這本詞典的製作過程中，我思考了下，不用在“文件內容前加註文件名”，有的情況下，是需要這樣做的，以方便提取keywords，經過測試，還是要在“文件內容後加空行”。

得到dopf-src.txt，對這個txt進行操作，得到可build為mdx的txt。

製作mdx合併後的文本長這樣：

詞典是xml，由於MDict PC版不支持xml+css（除非升級內核），我們要把xml標籤替換為html標籤。經過下面一系列的操作。處理後最終的文本是這樣：

寫css。

中途遇到些小問題，一個個解決，最後，成品：

是不是比在線的稍微順眼點呢？

注意事項

過程有些 tricky，多嘗試就明白了

相關問題答案

Let us answer it!