Skip to main content

from 黑暗執行緒

黑暗執行緒

Side Project 寫爬蟲有感。

如果有人跟你說「大數據」一點都不難,寫爬蟲超簡單,他一定是<del>壞心想騙你</del>好心怕把你嚇壞,沒說光第一關大魔王就很可怕。如果沒現成資料想自己抓網頁建基本資料庫,光是抓資料跟洗資料這段,就很容易把你搞到懷疑人生,而且還相當吃經驗值。

寫 Http Client 抓回網頁很簡單,難在解析手工輸入的各式文件擷取出資料,即使制式表格,打錯字的、存不同 Encoding 的、動到欄位標題... 就夠精采的,魔鬼全在細節裡。

常見的狀況是:花一小時寫幾行程式擷取正確率就高達 60%,但提高到 70% 要兩小時,推上 80% 要耗時四小時,花八小時好不容易到 90%... 直到你嘆一口氣,「算了,這幾百筆用手工改好了。」

如果你不熟 Regular Expression,一般會更早就放棄改用「工人智慧」。

Comments

Popular posts from this blog