自拍偷在线精品自拍偷|国产无码一区二区久久|最新版天堂资源中文官网|国产精品第一页爽爽影院|国产精品一区二区av不卡|久久久波多野av一区无码|国产欧美日本亚洲精品一4区|亚洲精品天堂在线观看2020

當(dāng)前位置:首頁 > 軟件開放 > 正文內(nèi)容

selenium網(wǎng)頁源碼xml解析(selenium 獲取html)

軟件開放2年前 (2023-04-16)2495

今天給各位分享selenium網(wǎng)頁源碼xml解析的知識,其中也會對selenium 獲取html進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!

本文目錄一覽:

selenium xml腳本怎么用

先對XPath做個簡坦培短介紹,之后用實(shí)例具體說明: 1.EXTJS的頁面源碼是多個div組成的,對于div id為常量時,可用div先定位,再由其讓裂唯他標(biāo)簽定位,例如input field可用label name,button可用button上的文字來定位源春。 2.在定位更接近目標(biāo)的節(jié)點(diǎn)時可用

python,求一個簡單的selenium+re的網(wǎng)頁源碼爬取

網(wǎng)頁爬取不一定要用Selenium,Selenium是為渣螞老了注入瀏覽器獲取點(diǎn)擊行為的調(diào)試工具,如果網(wǎng)頁無需人工交互就可以抓取,不建議你物臘使用selenium。要使用它,你需要安裝一個工具軟件,使用Chrome瀏覽器需要下載chromedriver.exe到system32下,如使用firefox則要下載geckodriver.exe到system32下。下面以chromedriver驅(qū)動chrome為例:

#?-*-?coding:UTF-8?-*-

from?selenium?import?webdriver

from?bs4?import?BeautifulSoup

import?re

import?time

if?__name__?==?'__main__':

options?=?webdriver.ChromeOptions()

options.add_argument('user-agent="Mozilla/5.0?(Linux;?Android?4.0.4;?Galaxy?Nexus?Build/IMM76B)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.133?Mobile?Safari/535.19"')

driver?=?webdriver.Chrome()

driver.get('url')#你要抓取百度文庫的URL,隨便找個幾十頁的替換掉

html?=?driver.page_source

bf1?=?BeautifulSoup(html,?'lxml')

result?=?bf1.find_all(class_='rtcspage')

bf2?=?BeautifulSoup(str(result[0]),?'lxml')

title?=?bf2.div.div.h1.string

pagenum?=?bf2.find_all(class_='size')

pagenum?=?BeautifulSoup(str(pagenum),?'lxml').span.string

pagepattern?=?re.compile('頁數(shù):(\d+)頁')

num?=?int(pagepattern.findall(pagenum)[0])

print('文章標(biāo)題:%s'?%?title)

print('如升文章頁數(shù):%d'?%?num)

while?True:

num?=?num?/?5.0

html?=?driver.page_source

bf1?=?BeautifulSoup(html,?'lxml')

result?=?bf1.find_all(class_='rtcspage')

for?each_result?in?result:

bf2?=?BeautifulSoup(str(each_result),?'lxml')

texts?=?bf2.find_all('p')

for?each_text?in?texts:

main_body?=?BeautifulSoup(str(each_text),?'lxml')

for?each?in?main_body.find_all(True):

if?each.name?==?'span':

print(each.string.replace('\xa0',''),end='')

elif?each.name?==?'br':

print('')

print('\n')

if?num??1:

page?=?driver.find_elements_by_xpath("http://div[@class='page']")

driver.execute_script('arguments[0].scrollIntoView();',?page[-1])?#拖動到可見的元素去

nextpage?=?driver.find_element_by_xpath("http://a[@data-fun='next']")

nextpage.click()

time.sleep(3)

else:

break

執(zhí)行代碼,chromedriver自動為你打開chrome瀏覽器,此時你翻頁到最后,點(diǎn)擊閱讀更多,然后等一段時間后關(guān)閉瀏覽器,代碼繼續(xù)執(zhí)行。

python爬蟲怎么獲取動態(tài)的網(wǎng)頁源碼

一個月前實(shí)習(xí)導(dǎo)師布置任務(wù)說通過網(wǎng)絡(luò)爬蟲獲取深圳市氣橡差含象局發(fā)布的降雨數(shù)據(jù),網(wǎng)頁如下:

心想,爬蟲不太難的,當(dāng)年跟zjb爬煎蛋網(wǎng)無(mei)聊(zi)圖的時候,多么清高。由于接受任務(wù)后的一個月考試加作業(yè)一大堆,導(dǎo)師也不催,自己也不急。

但是,導(dǎo)師等我一個月都得讓我來寫意味著這東西得有多難吧。。。今天打開一看的確是這樣。網(wǎng)站是基于Ajax寫的,數(shù)據(jù)動態(tài)獲取,所以無法通過下載源代碼然后解析獲得。

從某不良少年寫的抓取淘寶mm的例子中收到啟發(fā),對于這樣的情況,一般可以同構(gòu)自己搭建瀏覽器實(shí)現(xiàn)。phantomJs,CasperJS都是不錯的選擇。

導(dǎo)師的要求是獲取過去一年內(nèi)深圳每個區(qū)每個站點(diǎn)每小時的降雨量,執(zhí)行該操作需要通過如上圖中的歷史查詢實(shí)現(xiàn),即通過一個時間來查詢,而這個時間存放在一個hidden類型的input標(biāo)簽里,當(dāng)然可以通過js語句將其改為text類型,然后執(zhí)行send_keys之類的操作。然而,我失敗了。時間可以修改設(shè)置,可是結(jié)果如下圖。

為此,僅抓取實(shí)時數(shù)據(jù)。選取python的selenium,模擬搭建瀏覽器,模擬人為的點(diǎn)擊等操作實(shí)現(xiàn)數(shù)據(jù)生成和獲取。selenium的一大優(yōu)點(diǎn)就是能獲取網(wǎng)頁渲染后的源代碼,即執(zhí)行操作后的源代碼梁笑。普通的通過 url解析網(wǎng)頁的方式只能獲取給定的數(shù)據(jù)慶哪,不能實(shí)現(xiàn)與用戶之間的交互。selenium通過獲取渲染后的網(wǎng)頁源碼,并通過豐富的查找工具,個人認(rèn)為最好用的就是find_element_by_xpath("xxx"),通過該方式查找到元素后可執(zhí)行點(diǎn)擊、輸入等事件,進(jìn)而向服務(wù)器發(fā)出請求,獲取所需的數(shù)據(jù)。

[python]?view plain?copy

#?coding=utf-8

from?testString?import?*

from?selenium?import?webdriver

import?string

import?os

from?selenium.webdriver.common.keys?import?Keys

import?time

import?sys

default_encoding?=?'utf-8'

if?sys.getdefaultencoding()?!=?default_encoding:

reload(sys)

sys.setdefaultencoding(default_encoding)

district_navs?=?['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']

district_names?=?['福田區(qū)','羅湖區(qū)','南山區(qū)','鹽田區(qū)','寶安區(qū)','龍崗區(qū)','光明新區(qū)','坪山新區(qū)','龍華新區(qū)','大鵬新區(qū)']

flag?=?1

while?(flag??0):

driver?=?webdriver.Chrome()

driver.get("hianCe/")

#?選擇降雨量

driver.find_element_by_xpath("http://span[@id='fenqu_H24R']").click()

filename?=?time.strftime("%Y%m%d%H%M",?time.localtime(time.time()))?+?'.txt'

#創(chuàng)建文件

output_file?=?open(filename,?'w')

#?選擇行政區(qū)

for?i?in?range(len(district_navs)):

driver.find_element_by_xpath("http://div[@id='"?+?district_navs[i]?+?"']").click()

#?print?driver.page_source

timeElem?=?driver.find_element_by_id("time_shikuang")

#輸出時間和站點(diǎn)名

output_file.write(timeElem.text?+?',')

output_file.write(district_names[i]?+?',')

elems?=?driver.find_elements_by_xpath("http://span[@onmouseover='javscript:changeTextOver(this)']")

#輸出每個站點(diǎn)的數(shù)據(jù),格式為:站點(diǎn)名,一小時降雨量,當(dāng)日累積降雨量

for?elem?in?elems:

output_file.write(AMonitorRecord(elem.get_attribute("title"))?+?',')

output_file.write('\n')

output_file.close()

driver.close()

time.sleep(3600)

文件中引用的文件testString只是修改輸出格式,提取有效數(shù)據(jù)。

[python]?view plain?copy

#Encoding=utf-8

def?OnlyCharNum(s,?oth=''):

s2?=?s.lower()

fomart?=?'abcdefghijklmnopqrstuvwxyz0123456789,.'

for?c?in?s2:

if?not?c?in?fomart:

s?=?s.replace(c,?'')

return?s

def?AMonitorRecord(str):

str?=?str.split(":")

return?str[0]?+?","?+?OnlyCharNum(str[1])

一小時抓取一次數(shù)據(jù),結(jié)果如下:

selenium網(wǎng)頁源碼xml解析的介紹就聊到這里吧,感謝你花時間閱讀本站內(nèi)容,更多關(guān)于selenium 獲取html、selenium網(wǎng)頁源碼xml解析的信息別忘了在本站進(jìn)行查找喔。

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請注明出處。

本文鏈接:http://m.thonggone.com/post/16958.html

“selenium網(wǎng)頁源碼xml解析(selenium 獲取html)” 的相關(guān)文章

網(wǎng)站建設(shè)哪家好(網(wǎng)站建設(shè)哪些公司好)

網(wǎng)站建設(shè)哪家好(網(wǎng)站建設(shè)哪些公司好)

本篇文章給大家談?wù)劸W(wǎng)站建設(shè)哪家好,以及網(wǎng)站建設(shè)哪些公司好對應(yīng)的知識點(diǎn),希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、網(wǎng)站建設(shè)哪家網(wǎng)站建設(shè)公司比較好 2、網(wǎng)站建站哪家好? 3、哪網(wǎng)站建設(shè)好 4、網(wǎng)站建設(shè)哪家公司比較好? 5、做網(wǎng)站建設(shè)哪家好 網(wǎng)站建設(shè)哪家網(wǎng)站建設(shè)公司比...

外賣俠cps源碼(外賣cps小程序源碼)

外賣俠cps源碼(外賣cps小程序源碼)

本篇文章給大家談?wù)勍赓u俠cps源碼,以及外賣cps小程序源碼對應(yīng)的知識點(diǎn),希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、經(jīng)常點(diǎn)外賣怎么最省錢 2、“垃圾桶有小孩”銀川外賣小哥在垃圾桶發(fā)現(xiàn)一新生兒,頭上有血,怎么回事? 3、他們叫“外賣俠” 4、外賣小哥垃圾桶救出新生兒是怎...

怎樣畫漫畫少女的圖片(怎樣畫漫畫少女的圖片大全)

怎樣畫漫畫少女的圖片(怎樣畫漫畫少女的圖片大全)

今天給各位分享怎樣畫漫畫少女的圖片的知識,其中也會對怎樣畫漫畫少女的圖片大全進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、少女怎么畫動漫人物 2、如何畫漫畫少女 3、怎么畫漫畫少女 4、卡通人物簡筆畫美少女怎么畫? 少女怎么畫動漫人物 少女動...

機(jī)器人框架源碼(機(jī)器人框架源碼無版權(quán))

機(jī)器人框架源碼(機(jī)器人框架源碼無版權(quán))

今天給各位分享機(jī)器人框架源碼的知識,其中也會對機(jī)器人框架源碼無版權(quán)進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、請問人工智能機(jī)器人和源碼熊少兒編程有什么區(qū)別? 2、ur機(jī)器人程序另存為是跳出來defaultinstallat 3、那位大俠 能幫我下...

怎么看瀏覽器的下載內(nèi)容(瀏覽器怎么看下載的文件)

怎么看瀏覽器的下載內(nèi)容(瀏覽器怎么看下載的文件)

今天給各位分享怎么看瀏覽器的下載內(nèi)容的知識,其中也會對瀏覽器怎么看下載的文件進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、華為手機(jī)在瀏覽器里下載,下載的東西在哪里查看? 2、火狐瀏覽器怎么看下載進(jìn)度 3、谷歌瀏覽器怎么看下載列表 4、如何查看下...

外賣平臺店鋪裝修(外賣平臺店鋪裝修風(fēng)格)

外賣平臺店鋪裝修(外賣平臺店鋪裝修風(fēng)格)

今天給各位分享外賣平臺店鋪裝修的知識,其中也會對外賣平臺店鋪裝修風(fēng)格進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、外賣店怎么才能做起來? 2、店鋪裝修餓了么商家怎么關(guān)閉 3、如何把外賣店鋪設(shè)計得更好? 4、外賣平臺店鋪裝修怎樣設(shè)置動態(tài)店招...