ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Forbes JAPAN

2023/01/17

Picks

このまま本文を読む

本文を読む

注目のコメント

Sugibuchi Tsuyoshi
保険会社(フランス) Data engineer team leader・道産子
・2023年01月17日
読んでいて時系列に混乱したのですが、公立図書館が実施しているウェブアーカイビングが時代遅れと苦言するこの記事自体が5年前のForbesの記事というオチ。何故今邦訳記事が出てきたのだろう。

個人的にもかつてウェブアーカイビングの業界にいたので記事中で指摘されている個々の問題は「あるある」で痛いほど解ります。

ただ読者に誤解して欲しくないのはスクリプトで個別のサイトをクロールするのと何万ものサイトを長期にわたって収集するウェブアーカイビングは全く別物で、そもそも問題としてとても難しいんです。

監査(私が働いていた会社も北アフリカにQA部隊がいました)など真面目にやろうとするととてもお金がかかる一方で、実際あまり儲からない(笑)。

そして収集のターゲットであるWebのフロントエンド周りはIT界隈でも最も変化が速い分野で、それ故に象牙の塔ではなく商用Webの分野の技術者と連携する必要が有るというのも記事で指摘されている通り。

個人的には記事が書かれた2017年から現在までどのような技術的進歩があったのかちょっと興味が出てきました。当時の時点でルールやヒューリスティクスに頼っていた問題にも、その後の深層学習の進歩で置き換えられているものが幾つか有りそう。