一個簡單得不能再簡單的網頁抓取然後製作mdx教程
工具/原料
操作系統:Windows 7 旗艦版64位
抓取工具:wget
文本處理:EditPlus, UltraEdit, TextForever
方法/步驟
獲取網站 index,新建一個txt,內容為要抓取的所有詞條的URL。
txt命名為download.txt。我把這個download.txt和wget.exe(如果你下載的wget是wget+版本號.exe,不妨重命名為wget.exe),這倆文件都放在D:\DOPF下。cmd.exe->CD/D D:\DOPF->wget -i download.txt
下載處理後,得到一共16698個鏈接。
抓取內容同樣的,wget -i download.txt把上面那N個html都抓下來,然後就很簡單了
文本提取觀察可知,詞典條目內容在第一個
和
之間。
利用TextForever來提取文本。
提取完畢,合併得到的16695個html,這本詞典的製作過程中,我思考了下,不用在“文件內容前加註文件名”,有的情況下,是需要這樣做的,以方便提取keywords,經過測試,還是要在“文件內容後加空行”。
得到dopf-src.txt,對這個txt進行操作,得到可build為mdx的txt。
製作mdx合併後的文本長這樣:
詞典是xml,由於MDict PC版不支持xml+css(除非升級內核),我們要把xml標籤替換為html標籤。經過下面一系列的操作。處理後最終的文本是這樣:
寫css。
中途遇到些小問題,一個個解決,最後,成品:
是不是比在線的稍微順眼點呢?
注意事項
過程有些 tricky,多嘗試就明白了
利用TextForever來提取文本。
提取完畢,合併得到的16695個html,這本詞典的製作過程中,我思考了下,不用在“文件內容前加註文件名”,有的情況下,是需要這樣做的,以方便提取keywords,經過測試,還是要在“文件內容後加空行”。
得到dopf-src.txt,對這個txt進行操作,得到可build為mdx的txt。
製作mdx合併後的文本長這樣:
詞典是xml,由於MDict PC版不支持xml+css(除非升級內核),我們要把xml標籤替換為html標籤。經過下面一系列的操作。處理後最終的文本是這樣:
寫css。
中途遇到些小問題,一個個解決,最後,成品:
是不是比在線的稍微順眼點呢?
注意事項
過程有些 tricky,多嘗試就明白了