黑暗執行緒
Side Project 寫爬蟲有感。
如果有人跟你說「大數據」一點都不難,寫爬蟲超簡單,他一定是<del>壞心想騙你</del>好心怕把你嚇壞,沒說光第一關大魔王就很可怕。如果沒現成資料想自己抓網頁建基本資料庫,光是抓資料跟洗資料這段,就很容易把你搞到懷疑人生,而且還相當吃經驗值。
寫 Http Client 抓回網頁很簡單,難在解析手工輸入的各式文件擷取出資料,即使制式表格,打錯字的、存不同 Encoding 的、動到欄位標題... 就夠精采的,魔鬼全在細節裡。
常見的狀況是:花一小時寫幾行程式擷取正確率就高達 60%,但提高到 70% 要兩小時,推上 80% 要耗時四小時,花八小時好不容易到 90%... 直到你嘆一口氣,「算了,這幾百筆用手工改好了。」
如果你不熟 Regular Expression,一般會更早就放棄改用「工人智慧」。
Comments