python3でWebスクレイピング その1:htmlをゲットする
htmlをゲットしましょう。
まずはbeautifulsoupをインストール
pip3 install beautifulsoup4
そして、以下を書きます。
# coding: UTF-8
import urllib3
from bs4 import BeautifulSoup
import requests
#アクセスするURL
url = "https://www.nikkei.com/"
http = urllib3.PoolManager()
r = http.request('GET', url)
soup = BeautifulSoup(r.data,'html.parser')
print (soup)
これでhtmlが取得できる。
テキストのみなら
# coding: UTF-8
import urllib3
from bs4 import BeautifulSoup
import requests
#アクセスするURL
url = "https://www.nikkei.com/"
http = urllib3.PoolManager()
r = http.request('GET', url)
soup = BeautifulSoup(r.data,'html.parser')
text = soup.text
print (text)
でもこれって変なのが残るんだよな。
ごめん、これじゃ全然わからないよね。