特別企画

リポジトリデータの格納が完了した「Arctic Code Vault」について、GitHubに聞いてみた

ソースコードを北極圏に1000年間保存するプロジェクト

 米GitHubは、GitHubで公開されたオープンソースプロジェクトなどのリポジトリデータを北極圏に1000年間保存する「GitHub Arctic Code Vault」において、7月8日に格納が実施されたことを発表した。

 GitHub Arctic Code Vaultは、GitHubの公開データを保存する「GitHub Archive Programs」の中のプロジェクトだ。2019年11月に発表された年次イベント「GitHub Universe 2019」で発表された。

 2020年2月2日にスナップショットが取得されており、対象となるリポジトリは、GitHubの全パブリックリポジトリのうち、2月2日までの1年の間に1つ以上のスター付けとコミットがあったリポジトリと、250スター以上のリポジトリだと説明されている。

 各リポジトリのデフォルトブランチのHEAD(最新状態)のうち、100KBより大きいバイナリを除いたものが保存された。保存されたソフトウェアに貢献した開発者には、Arctic Code VaultバッジがGitHubのプロファイルで与えられている。

 取得されたデータは、プロジェクトのパートナーであるノルウェーPiql社の技術により、光学フィルムに記録され、これらのフィルムのリールが、スヴァールバル諸島の廃坑、地下数百メートルに格納された。

格納場所の入り口(写真提供:GitHub)
格納したコンテナ(写真提供:GitHub)
コンテナの内部(写真提供:GitHub)

 このプロジェクトについて、GitHubのJulia Metcalf氏(Director of Strategic Programs)にメールインタビューで話を聞いた。

GitHubのJulia Metcalf氏(Director of Strategic Programs)(写真提供:GitHub)

21TBを書き込んだリール186巻を格納

――あらためて、GitHub Arctic Code Vaultがどのようなものか、どういう目的で始めたのかについて教えてください。

 現代では、プロプライエタリなソフトウェアを含む多くのソフトウェアプロジェクトが、なんらかの形でオープンソースに依存しています。“インターネットの生命の素”といえます。

 ただしわれわれの文明において、ソフトウェアやその他のデジタルデータを恒久的にバックアップする戦略は、いまのところ新しい記録媒体に移しかえ続けるという期待が大部分です。

 そこでわれわれは、この世界が依存しているソフトウェアの、より恒久的なバックアップに取り組みました。GitHub Archive Programは、将来の世代のためにオープンソースソフトウェアを保存し、オープンソース運動の重要性の証しになることを目指しています。

 なお、GitHub Arctic Code Vaultは、同じくスヴァールバル諸島にあるSvalbard Global Seed Vault(スヴァールバル世界種子貯蔵庫)からヒントを得ました。

――実行にあたって予定と変わったことがあったら教えてください。

 格納の予定日は、COVID-19とそれにともなう渡航制限によって、延期されました。もともとわれわれのチームも自らノルウェイに飛んで、世界中のオープンソースのコードを北極圏までエスコートするつもりでした。しかし、世界的なパンデミックにより、予定を変更することになりました。われわれのチームがスヴァールバルに格納するかわりに、われわれのパートナーがコードをArctic Code Vaultに連れていきました。

――今回、どのぐらいのデータを格納したのでしょうか。

 アーカイブのパートナーであるPiql社は、数カ月かけて、21TBのリポジトリデータをリール186巻のpiqlFilm(デジタル感光性アーカイブフィルム)に書き込みました。

データを記録するPiqlのpiqlFilm(写真提供:GitHub)
piqlFilmのリール(写真提供:GitHub)
リールを飛行機でスヴァールバルへ輸送(写真提供:GitHub)

とてもポジティブな反響

――第1回の反響を教えてください。また、第2回以降の予定やプランについて、いま言えることがあれば教えてください。

 Arctic Code Vaultに無事に格納されてArctic Code Vaultバッジを受け取ったコミュニティからは、とてもポジティブな反響をいただいています。

 今回の格納は、長期にわたるアーカイブのプロセスの最初の一歩です。次にわれわれは、コミュニティにTech Treeを発行してフィードバックをもらうことを計画しています。Tech Treeは、アーカイブされたコンテンツの技術史および文化的背景を文書化したものです。

――GitHub Arctic Code Vault以外の、GitHub Archive Programのプロジェクトについてもご紹介ください。

 Arctic Code Vaultは、GitHub Archive Programの広範囲な努力の一部です。Arctic Code Vaultに加えて、スタンフォード大学、Long Now Foundation、Internet Archive、Software Heritage Foundationと組んで、世界中のオープンソースのコードが複数のコピーとフォーマットで世界中の複数の場所に保存されるようにしています。

 われわれは「ペースレイヤリング」のアプローチにもとづき、GH Archive(筆者注:GitHubのリアルタイムなタイムラインをアーカイブし、分析のためにアクセスできるようにするサービス)のようなリアルタイムのソリューションから、Arctic World ArchiveやProject Silica(筆者注:高耐久性の石英ガラスに情報を高密度で記録する技術)のような長期保存までの範囲の保存ソリューションにとりくみます。これらの詳細は、GitHub Archive ProgramのWebサイトから調べられます。

――ありがとうございました。

GH ArchiveのWebサイト
Project Silica(公式ビデオより)