python-study/python-samples/web/use_requests_html.py at master · yanglinpei/python-study

78 lines (68 loc) · 2.48 KB

from requests_html import HTMLSession
import json
from pprint import pprint
session = HTMLSession()
r = session.get('https://www.qiushibaike.com/text/')
# print(r.html.html)
# print(r.html.links)
# print(r.html.absolute_links)
# print(r.html.find('div#menu', first=True).text)
# print(r.html.find('div#menu a', first=True))
# print(list(map(lambda x: x.text, r.html.find('div.content span'))))
# print(r.html.xpath("//div[@id='menu']", first=True).text)
# print(r.html.xpath("//div[@id='menu']/a"))
# print(r.html.xpath("//div[@class='content']/span/text()"))
# e = r.html.find("div#hd_logo", first=True)
# print(e.text)
# print(e.attrs)
# print(e.absolute_links)
# print(e.links)
# print(e.html)
# print(e.search("糗事{}科")[0])
# r = session.get('http://python-requests.org/')
# r.html.render()
# print(r.html.search('Python 2 will retire in only {months} months!')['months'])
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
# r = session.get('http://httpbin.org/get', headers={'user-agent': ua})
# pprint(json.loads(r.html.html))
# r = session.post('http://httpbin.org/post', data={'username': 'yitian', 'passwd': 123456})
# pprint(json.loads(r.html.html))
# r = session.get('https://www.jianshu.com/u/7753478e1554')
# r.html.render(scrolldown=50, sleep=.2)
# titles = r.html.find('a.title')
# for i, title in enumerate(titles):
#     print(f'{i+1} [{title.text}](https://www.jianshu.com{title.attrs["href"]})')
url = 'http://bbs.tianya.cn/post-culture-488321-1.shtml'
r = session.get(url)
author = r.html.find('div.atl-info span a', first=True).text
div = r.html.find('div.atl-pages', first=True)
links = div.find('a')
total_page = 1 if links == [] else int(links[-2].text)
title = r.html.find('span.s_title span', first=True).text
with io.open(f'{title}.txt', 'x', encoding='utf-8') as f:
    for i in range(1, total_page + 1):
        s = url.rfind('-')
        r = session.get(url[:s + 1] + str(i) + '.shtml')
        # 从剩下的里面找楼主的帖子
        items = r.html.find(f'div.atl-item[_host={author}]')
        for item in items:
            content: str = item.find('div.bbs-content', first=True).text
            # 去掉回复
            if not content.startswith('@'):
                f.write(content + "\n")

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

use_requests_html.py

Latest commit

History

use_requests_html.py

File metadata and controls