我试图从这个网站获得标题(http://www.itslaw.com),它是通过JavaScript加载的
I tried to get title from this site (http://www.itslaw.com), it was loading by JavaScript
这是我的代码,我使用Python来获取信息,我使用代理、头、会话来模拟,但我一直得到501。
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq
from goose import Goose
from goose.text import StopWordsChinese
import json
import time
class ItSlaw(object):
def __init__(self):
self.url = 'XXXX'
self.headers = {'XXXX'}
self.result = None
self.keyword = None
self.session = requests.Session()
def reset(self, keyword):
self.keyword = keyword
self.result = None
def fetch(self):
url = self.url.format(keyword='self.keyword',keywordcopy='self.keyword')
res = []
time.sleep(3)
proxies = {"http": "14.111.148.1"}
r = self.session.get(url, proxies=proxies)
print r.status_code
completed_url = 'http://www.itslaw.com/' + 'url'
g = Goose({'stopwords_class': StopWordsChinese})
article = g.extract(url=completed_url)
content = article.cleaned_text
res.append()
self.result = res
return self.result
def get_result(self):
return self.result
您可以使用硒:
-
使用
pip
为Python安装selenium。对于Linux(Ubuntu/Debian),它看起来是:sudo apt-get install python-pip
sudo pip install selenium
(!)你必须谷歌如何为你的操作系统做这件事
- 然后运行这个代码
import unittest from selenium import webdriver class GetTitle(unittest.TestCase): def setUp(self): self.driver = webdriver.Firefox() def test_get_title(self): driver = self.driver driver.get("http://www.itslaw.com/") print "Title is: ", driver.title def tearDown(self): self.driver.close() if __name__ == "__main__": unittest.main()
>>> Title is: 无讼案例|无讼名片-打造中国最大的互联网律师名片、案例检索服务平台
相关文章:
- 我想创建一个类似于http://www.creativecrisp.com/.
- 在第'www.foo.com',可以从'www.example.com'将ajax请求发
- 垂直整页滑块,如Angular中的www.tumblr.com
- 我得到了这个错误,但是不要;我不知道如何修复它,www.example.com/undefined?1460018627
- YouTube播放器API onReady未启动www.YouTube-nocookie.com
- 我试图从这个网站获得标题(http://www.itslaw.com),它是通过JavaScript加载的
- http://www.badassembly.com/work/ 使用了哪些网络技术
- 除了 http://example.com 之外,如何扩展此正则表达式以匹配 www.example.com
- 内容安全策略阻止对 *://www.google.com/recaptcha/api 的请求
- 如何在我的基于ajax html5的网站模板 http://www.musicep.com/ 上插入广告?我尝试了一切,
- Variables as www.example.com/var1/var2/
- 仅使用javascript,我如何点击网址(如www.google.com)并在我的页面上显示谷歌标志
- 为什么=javascript_include_tag"//www.google.com/jsapi"本
- StumbleUpon徽章未在现场加载.无法将消息发布到http://www.stumbleupon.com.收件人有来
- 如何使MVC URL始终“;www.domainname.com”;
- 如何在没有www的情况下显示域名,但即使用户进入domain.com(没有www)也能工作
- 如何在Javascript代码中使用变量Ex:src="htp://www.url.com/file.php?
- 有人知道这个网站www.nikebetterworld.com是怎么做的吗?
- 匹配一个单词可以在www.regexr.com上工作,但不能在我的网站上
- Fb-Like按钮+对<http://www.facebook.com>以获取属性Proxy.Install