古い記事と格闘する

自分がこのブログを始めて10年近くになるわけだけど、2008年以前にiBlogで書いた記事は、RapidWeaver上には、登録していない。
移行するのが面倒だったのと、一応古いアドレスでもアクセスできるのでいいかと。

ただ、やはり来年の6月には、MobileMeの廃止で、古いアドレスにはアクセスできなくなってしまう。自分のブログの過去記事など、今更、ほとんどゴミだとは思うが、一応10年続いているのも珍しいかと思うし、枯れ葉も山のにぎわいかとも思うので、ちょっとずつ移行しようかと。

どうやって移行するかだが、今までは、iBlogのアプリを立ち上げて、記事を開いて、コピペをしていたが、タイトルは別フィールドになっていたりして、1つの記事を数度にわたってコピペしないといけないので、これではどうにも時間がかかる。

多少なりとも省力化したい。
一括して、RapidWeaverにインポートできればいいが、どうやらそんな気の利いた機能はないっぽい。

結局たどり着いた方法は、iBlogから吐き出されたHTMLファイルから不要なHTMLタグを全部除去して、プレーンに近いテキストファイルにして、コピペしていくという方法。

具体的には、老舗の
テキストエディタJEdit Xの「複数一括置換」という機能と「マルチファイル置換」機能を使って、ブログで使っていたHTMLタグを片っ端から削除していく。

blog111123_1_1

この「複数一括置換」機能は初めて使ったが、なかなか強力。
検索文字列をHTMLタグなどにして、置換文字列を何にもなしにしておけば、削除にしてくれる。
この検索文字列はテキスト形式で、保存、読み込みができるのがミソで、ブログのindex.htmlを加工すれば、一気に検索文字列を登録できる。多分TSV形式っぽいので、改行の前にタブコードを入れておくのがポイント。

「マルチファイル置換」も強力。
フォルダパスを登録しておけば、それ以下のすべてのテキストファイルの該当タグを全部置換してくれる。

一発では、すべての不要なタグを取りきるのは無理なので、何回か繰り返す。
Jedit Xのバグなのか、一度マルチファイル置換をかけると、2回目にハングアップするので、毎回終了して、起動しなおすのが面倒だった。

不要なタグを取りきったら、1つのテキストファイルにつなげる。
これは、CocoaCatXというアプリを使った。

http://www5.wind.ne.jp/miko/mac_soft/cocoa_cat_x/index.html

まず、Finderで、タグを取りきったHTMLが入っているフォルダの親のパスを開いて、Finderの検索機能で、index.htmlを検索。
すると、サブフォルダに入っているindex.htmlがすべて検索されるので、それをまとめて、CocoaCatXにドラッグ&ドロップすると、結合したテキストファイルを保存できる。

これで、元ブログの記事は、記事部分だけがテキストファイル化されたので、後は、暇を見つけては、RapidWeaverに登録していく、ということになる。

これだけでも、全体の作業時間は1/3になったんではないかと。



Jedit X Standard