火車采集器(LocoySpider)是一個功能強大的數據采集軟件,利用該軟件就可以輕易在網頁上抓取文字、圖片、文件等等需要的資源。軟件還支持遠程下載圖片文件、探測文件真實地址、防盜鏈的采集、采集數據直接入庫和模仿人手工發布等等。
軟件特色
1、通用性強
無論新聞、論壇、視頻、黃頁、圖片、下載類網站,只要通過瀏覽器能看到的結構化的內容,通過指定匹配規則,都能采集到您所需要的內容。
2、穩定、高效
五年磨一劍,軟件不斷更新進步,采集速度快,性能穩定,占用資源少。
3、擴展性強、適用范圍廣
自定義web發布,自定義主流的數據庫的保存和發布,自定義本地php及.net外部編程接口處理數據,讓數據都能為你所用。
基本功能
1、規則自定義 - 通過采集規則的定義,可以搜索所有網站采集幾乎任何類型的信息。
2、多任務,多線程 - 可以同時進行多個信息獲取任務,每個任務可以使用多個線程。
3、所見即所得 - 任務采集過程所見即所得,過程中遍歷的鏈接信息、采集信息、錯誤信息等都會及時的反映在軟件界面中。
4、數據保存 - 數據邊采集邊自動保存到關系數據庫中,并且數據結構能夠自動適應,軟件可以根據采集規則自動創建數據庫,以及其中的表和字段,也可以通過導庫方式靈活的將數據保存到客戶已有的數據庫結構中。
5、斷點續采 - 信息收集任務可以在停止后從斷點開始繼續采集,從此你用不再擔心你的采集任務意外中斷了。
6、網站登錄 - 支持網站Cookie,支持網站可視化登錄,即使登錄時需要驗證碼的網站也能采集。
7、計劃任務 - 通過這個功能可以讓你的采集任務定時、定量或者一直循環執行。
8、采集范圍限制 - 可以根據采集的深度和網址的標識來限制采集的范圍。
9、文件下載 - 可以將采集到的二進制文件(諸如:圖片、音樂、軟件、文檔等等)下載到本地磁盤或者采集結果數據庫中。
10、結果替換 - 可以將采集的結果根據規則替換成你定義的內容。
更新日志
2021-03-15
火車采集器V9.30版
1、優化標簽數據處理中字符替換。
2、對文件探測無效導致文件下載失敗問題優化。
3、處理用戶名包含特殊符號不能登錄問題。
4、修復數據管理批量操作數據有異常彈窗提示。
5、修復二級代理卡死問題。
6、完善自動獲取cookie失敗問題。
7、發布到word,自動轉義“<”、“>”為“《”、“》”。
8、修復:勾選發布選項,采集最大數無效。
9、修復oracle鏈接問題。
10、支持oss存儲。
11、修復:下載地址后面有斜杠,下載文件時無后綴名。