night and sundial

じゃわじゃわ日記 -the 5th defection-

過去ログの補完が完了

jawa-jawa.hatenadiary.jp

 続き。

 凍結は解除されない。ついにTwilogも見られなくなってしまった。

 重い腰を上げて、ついったーのログをWeb上に補完することにした。

 とは言っても、材料はすでにあったし、方法も考えてはいた。──ついったー本体からエクスポートしたログファイル(json形式)があり、ここに2023年4月6日までの全投稿がある*1。VBAでツールを作って、このファイルから、

  • id_str(自分の投稿1件ごとの一意のID。リツイートにも付与されている)
  • created_at(投稿1件ごとの投稿日時。ただしUTCなので*2JSTに変換する必要はある)
  • full_text(投稿の本文。文字数の制約で後ろが切れていることがあるのがいまいちだが、これしかない)

の要素を抽出し、投稿日時の降順でソートして、テキストファイルに出力した。ここまでは4月末にやってあった。

 このテキストファイルを、はてなブログに取り込めるかたちにすればよい。またVBAで、今度はMovableType形式の1日ごとに1記事のデータになるように成形し、それをはてなブログのインポート機能に入力した。本来は他のブログやCMSサービスが作成したファイルを取り込むための機能だろうが、MovableType形式と言っても“書き方の決まったテキストファイル”にすぎないので、必要な要素のあるファイルを作ってしまえばよい。

 結果、2023年4月4日までのデータが4,940日分の記事になり、5月25日(木曜日)から5月26日(金曜日)にかけての夜にはてなブログにインポートできた*3

jawa-jawa-tw.hatenablog.jp

 一連の、手でいじるには大きすぎるデータの加工には、VBAが役に立った。必要に迫られたことで、これはこれで面白い経験にはなった。

*1:リツイートが含まれていて、投稿件数は59,960件だった。この、全件のログをダウンロードしてあったことは、本当に幸運だった

*2:ついったーの検索で日時指定がうまく効かないことがあるのは、ついったーが投稿日時をUTCで持っているのが原因だと思われる

*3:取込み後の記事数は4,942件で、なぜか2件が重複して取り込まれていたので、削除した。入力したデータには問題がなかったので、はてなブログ側の問題?