PythonとSeleniumで自分のツイートを抽出する - ひつじはね太と考える日々

本日２件目。PythonとSeleniumを使って自分のツイートを抽出します。 API叩けばすぐ済むことを敢えてスクレイピングでやる。熱い。

やりたいこと
今回試した方法
まとめ

やりたいこと

https://twitter.com/にアクセス
ログインボタンを押し、出てきたinputタグにユーザー名とパスワードを記入、ログイン
最初のページから、マイページへ移動
何もせずに出ている20ツイートくらいをテキストで抽出
抽出したツイートをターミナルで表示＋csv出力

Seleniumの準備などにはdockerを使っています。その辺りの環境構築は今回は省略。

今回試した方法

PhantomJSという仮想ブラウザを取得
Twitterにアクセス
Seleniumでログイン
マイページに移動
ツイートを取得してターミナルに出力
csvにも出力

元ネタとして参考にしたのは、こちら。

Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう

作者: クジラ飛行机
出版社/メーカー: ソシム
発売日: 2016/12/06
メディア: 単行本
この商品を含むブログ (4件) を見る

実はNewsPicksで似たようなことをしていたんだけど、後々アウトなことを知ったのであげられず。なので今回はTwitterで簡単なバージョンを作ってみました。

コードはこちら getTweet · GitHub

それでは順に見ていきます。

1. PhantomJSのブラウザを取得

# PhantomJSのドライバを得る
browser = webdriver.PhantomJS()
browser.implicitly_wait(3) #念のため３秒待機

スクレイピングをやるときはマナーとして定期的に休みをとる。とらないとサーバにめちゃくちゃ負担かかるらしいので。

2. Twitterにアクセス

browser.get()で指定のURLにアクセス。 browser.save_screenshot()でスクリーンショットをとる。今回はブログ用に写真をとってます。

# Twitterにアクセス
url = "https://twitter.com/"
browser.get(url)
browser.save_screenshot("toppage.png") #証拠写真撮影

証拠写真がこちら f:id:cyclemem:20170701165822p:plain

3. ログインする

まずは右上にあるログインボタンをクリック Seleniumだと、find_element_by_css_selectorでCSS セレクタを指定した要素が取得できるそこをe.click()でクリックしているだけ。

#ログインボタンをクリック
e = browser.find_element_by_css_selector(".StreamsLogin")
e.click()
browser.implicitly_wait(10) #反映に時間がかかるので待つ
browser.save_screenshot("login.png") #証拠写真撮影

そうすると、さっきの画面がこうなる。 f:id:cyclemem:20170701170054p:plain

次に指定したユーザIDとパスワードを入力する。ここでUSER、PASSとなってるのは、あとで全文載せるけど、最初のほうで指定しているさっきと同じ要領で、ユーザIDの入力欄を取得し、念のためclearで初期化。send_keysで指定文字列を入力する。

# ユーザIDとパスワードを入力
e = browser.find_element_by_css_selector(".email-input")
e.clear()
e.send_keys(USER) #ここでユーザIDを入力

e = browser.find_element_by_css_selector("input[type=password]")
e.clear()
e.send_keys(PASS) #ここでパスワードを入力

browser.implicitly_wait(5) #念のため５分待って
browser.save_screenshot("login_with_info.png") #証拠写真撮影

結果がこちら、 f:id:cyclemem:20170701170424p:plain

最後に、ログインボタンを取得してクリックするとログイン完了。

#送信ボタンをクリック
e = browser.find_element_by_css_selector(".submit")
e.click()
browser.implicitly_wait(5) #念のため５分待って
browser.save_screenshot("success.png") #証拠写真撮影

やったぜ f:id:cyclemem:20170701170525p:plain

4. マイページに移動

これは簡単で、上のページのアカウント情報にあるヘッダー画像をクリックすればいい。

#マイページに移動
e = browser.find_element_by_css_selector(".DashboardProfileCard-bg")
e.click()

browser.implicitly_wait(3) #念のため３秒待って
browser.save_screenshot("mypage.png") #証拠写真撮影

結果はこちら。自分のページに移動しています。 f:id:cyclemem:20170701171004p:plain

5. ツイートを抽出して、ターミナルに出力

さっきと同様にツイートを取得。今回は複数あるので、find_elements_by_css_selectorを使う。 element→elementsにするだけで複数形になる親切設計。

またこのあとcsvに書き込むときにツイートがリストになってると便利なので、事前に用意しておく。

ここまで出来たらツイートを出力したいのだけど、抽出したtweetsにはいろんな情報が入っているので、textだけを出力する。

# ツイートを抽出
tweets = browser.find_elements_by_css_selector(".tweet-text")

#csvに読み込む用のリストを生成
tweet_list = []

# ツイートの出力
for tweet in tweets:
    t = tweet.text #ツイートのテキストを出力
    tweet_list.append(t) #リストに追加
    print(t) #ターミナルに出力

結果がこちら。黒い画面かっこいい！ f:id:cyclemem:20170701171319p:plain

6. csvに出力

さっきのだけだと面白くないので、せっかくだから外部ファイルに出力する。

# csvに入れまくる
with codecs.open("tweets.csv", "w", "utf-8") as fp:
    writer = csv.writer(fp, delimiter=",", quotechar='"')
    writer.writerow(["tweet"])
    for tweet in tweet_list:
        writer.writerow([tweet])

結果は、こんな感じ。内容は変わらないけど。 f:id:cyclemem:20170701171437p:plain