華藝線上圖書館網站下載文件並轉檔成dspace上傳的CSV格式的自動化工具
請依照電腦的作業系統與安裝的Google Chrome版本下載正確的chrome driver
並放到resources/
裡,Windows系統請保持命名chromedriver.exe
,Linux系統請保持命名chromedriver
。
請編輯input.py
來指定要下載的期刊URL及標題、handleID等資料:
orders = [
{
# 資料夾的名稱會是 'title[handleId]'
'title': '中華水土保持學報第50卷4期',
'handleId': '10000',
'url': 'http://www.airitilibrary.com/Publication/alPublicationJournal?PublicationID=02556073&IssueID=202004070001',
'date': '2019-12-01' # 出版物出版日期,會自動填入metadata.csv
}
# 可以有多個
]
多個項目將批次執行。
python main.py
chcp 65001
執行結果會放在output/
資料夾中。
請確保temp/download/
資料夾存在且內容爲空。
目前是使用pytesseract來處理captcha驗證碼,約5次成功1次,若要加快可以引入其他辨識準確率更高的方案。
張世澤 <[email protected]> 2020