GitHub、多言語開発者コンテンツのオープンデータセットを公開

開発者はREADMEファイル、issueスレッド、プルリクエストのディスカッションを通じてコードの調整を行っています。そのやり取りの多くは英語で行われていますが、他の言語で行われているものも相当数存在します。GitHubは、英語以外の自然言語コンテンツを含むパブリックリポジトリを研究者や開発者が探し出せるよう設計されたデータセットを公開しました。

Image

「GitHub Multilingual Repositories Dataset」はCC0-1.0ライセンスのもとGitHub上で公開されています。この公開は、Microsoftの「European Digital Commitments(欧州デジタルコミットメント)」の一環としてGitHubが2025年に行った約束を実行したものです。オープンソースのAI開発者を含む利用者に向けて、多言語データへのアクセスを拡大することが目的です。

データの収録範囲

「このデータセットは4,000万以上のリポジトリにわたる8,000万件超の分類レコードをカバーしています」と、GitHubのスタッフソフトウェアエンジニアであるKevin Xu氏は説明しています。

各パブリックリポジトリについて、データセットはREADME、最もコメント数の多いissue、および最もコメント数の多いプルリクエストの言語分類を記録しています。各テキストの先頭150文字が入力サンプルとして使用され、20文字未満のテキストは除外されます。分類処理にはfastText、gcld3、lingua-pyの3種類の分類器が使用され、それぞれが信頼スコアを算出します。データセットには信頼スコアが0.5を上回る分類のみが含まれます。3つの分類器の結果は別々に保持されているため、利用者は独自の精度基準を設定できます。たとえば、高精度を求める場合はすべての分類器の一致を必須とし、広く網羅したい場合はいずれか1つの結果を採用することも可能です。

各エントリにはリポジトリのメタデータも含まれています。具体的には、作成タイムスタンプ、ディスク使用量、スター数、フォーク数、主要プログラミング言語、SPDXライセンス、issueおよびプルリクエストの件数、スナップショット日時などが記録されています。

言語分布の傾向

言語のパターンはテキストの種類によって異なります。韓国語はissueテキストにおいて英語以外で最も多い言語となっており、READMEファイルでは5番目に多い言語となっています。ポルトガル語はREADMEにおける英語以外の言語でトップに立っており、300万以上のリポジトリで使用されています。

データの制限事項

GitHubはこのデータセットをあくまで「発見のためのツール」と位置づけており、言語識別の正解データ(グランドトゥルース)として扱うことには慎重な姿勢を示しています。リポジトリのテキストは短く、バッジ、テンプレート、コマンド、コードが混在することも多いため、150文字のサンプルではリポジトリの実態を正確に反映できない場合があります。また、このデータはリポジトリレベルのシグナルであり、リポジトリのオーナーや貢献者、コミュニティに関するセンシティブな属性の推測には使用すべきではないとされています。

翻訳元: https://www.helpnetsecurity.com/2026/06/16/github-multilingual-repositories-dataset-released/

ソース: helpnetsecurity.com