python3でWebスクレイピング その1:htmlをゲットする

htmlをゲットしましょう。

まずはbeautifulsoupをインストール

pip3 install beautifulsoup4

そして、以下を書きます。

# coding: UTF-8
import urllib3
from bs4 import BeautifulSoup
import requests

#アクセスするURL
url = "https://www.nikkei.com/"

http = urllib3.PoolManager()
r = http.request('GET', url)

soup = BeautifulSoup(r.data,'html.parser')

print (soup)

これでhtmlが取得できる。

テキストのみなら

# coding: UTF-8
import urllib3
from bs4 import BeautifulSoup
import requests

#アクセスするURL
url = "https://www.nikkei.com/"

http = urllib3.PoolManager()
r = http.request('GET', url)

soup = BeautifulSoup(r.data,'html.parser')
text = soup.text

print (text)

でもこれって変なのが残るんだよな。

ごめん、これじゃ全然わからないよね。