|
公司基本資料信息
|
|||||||||||||||||||||||||||||||||
完整解析信息的標(biāo)記形式,,再提取關(guān)鍵信息
XML JSON YAML
需要標(biāo)記解析器 如bs庫(kù)的標(biāo)簽樹(shù)遍歷
優(yōu)點(diǎn):信息解析準(zhǔn)確
缺點(diǎn):提取過(guò)程繁瑣
方法二:無(wú)標(biāo)記形式,直接搜索關(guān)鍵信息
搜索
對(duì)信息的文本查找函數(shù)即可
優(yōu)點(diǎn),過(guò)程簡(jiǎn)潔,速度較快
缺點(diǎn),提取結(jié)果準(zhǔn)確性與內(nèi)容相關(guān)
淘寶新開(kāi)店采集軟件,實(shí)時(shí)更新,一鍵提取
其中的方法
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一個(gè)列表類(lèi)型,儲(chǔ)存查找的結(jié)果。
name:對(duì)標(biāo)簽名稱(chēng)的檢索字符串。
attrs:對(duì)標(biāo)簽屬性值的檢索字符串,可標(biāo)注屬性檢索。
recursive:是否對(duì)子孫全部檢索,默認(rèn)True。布爾型。
string:<>…</>中字符串區(qū)域的檢索字符串
**kawargs:
(…) 等價(jià)于 .find_all(…)
soup(…) 等價(jià)于soup.find_all(…)
<>.find 拓展方法
淘寶新開(kāi)店采集軟件,實(shí)時(shí)更新,一鍵提取