データ・コード

公開しているデータとコードを抜粋しています．論文・発表のページにも該当する論文のところに載せています．

Web アプリ

Researcher Population Pyramids
国別の研究者人口構造とジェンダーバランスを可視化・探索できるインタラクティブな Web アプリです．コードを書かずに，国や年ごとの研究者人口ピラミッドをブラウザ上で閲覧できます．

論文: Kazuki Nakajima and Takayuki Mizuno. Researcher Population Pyramids: Tracking Demographic and Gender Trajectories Across Countries. PNAS Nexus (2025).

CitationCS データセット
情報学分野の国際会議論文とジャーナル論文を対象とした引用データセットです． OpenAlex，DBLP，CORE，SCImago の情報を統合して構築しており，3,720,575件の論文メタデータと22,908,275件の内部引用を含みます．データは JSON Lines 形式で提供されています．

論文1: Kazuki Nakajima, Yuya Sasaki, Sohei Tokuno, and George Fletcher. Quantifying gendered citation imbalance in computer science conferences. Proc. AIES (2024).

論文2: Kazuki Nakajima, Yuya Sasaki, Sohei Tokuno, and George Fletcher. Systemic Gendered Citation Imbalance in Computer Science: Evidence from Conferences and Journals. Scientometrics (2025).

共引用ハイパーグラフデータ
各研究分野の高被引用論文をノードとし，共引用関係をハイパーエッジとして表現した共引用ハイパーグラフのデータセット群です．いずれのデータセットも OpenAlex Snapshot（2024-09-27）から構築しており，各ノードには，OpenAlex work ID，論文タイトル，出版日，トピック，サブフィールド，フィールド，ドメイン，被引用数などの属性が付与されています．これらのデータセットは XGI-DATA の一部としても利用できます．

研究分野ごとに以下のデータセットを公開しています．
- cs-cocitations（情報学）：3,118 ノード，53,886 ハイパーエッジ．
- biochem-cocitations（生化学・遺伝学・分子生物学）：8,998 ノード，50,289 ハイパーエッジ．
- math-cocitations（数学）：2,972 ノード，17,099 ハイパーエッジ．
- neuro-cocitations（神経科学）：4,267 ノード，16,771 ハイパーエッジ．
- physics-cocitations（物理学・天文学）：5,347 ノード，42,535 ハイパーエッジ．
論文: Kazuki Nakajima, Yuya Sasaki, Takeaki Uno, and Masaki Aida. Learning Multi-Order Block Structure in Higher-Order Networks. arXiv preprint (2025).

HyperMOSBM
高次ネットワークにおける相互作用の次数（ハイパーエッジサイズ）ごとの構造を学習するための確率的ブロックモデルの Python コードです．相互作用の次数の集合の最適な分割を推定し，ハイパーグラフのメゾスコピック構造を捉えます．

論文: Kazuki Nakajima, Yuya Sasaki, Takeaki Uno, and Masaki Aida. Learning Multi-Order Block Structure in Higher-Order Networks. arXiv preprint (2025).

研究者人口ピラミッド可視化ツール
出版データを用いて，国別の研究者人口構造とジェンダーバランスの変化を可視化・診断するための Python コードです．著者ごとの出版年系列から研究者人口ピラミッドを構築し，研究エコシステムの人口動態や将来の変化を分析できます．

論文: Kazuki Nakajima and Takayuki Mizuno. Researcher Population Pyramids: Tracking Demographic and Gender Trajectories Across Countries. PNAS Nexus (2025).

HyperNEO
属性付きハイパーグラフのコミュニティ構造を推定・可視化するための Python コードです．ハイパーグラフ向けの混合メンバーシップ確率的ブロックモデルと次元削減法を組み合わせることで，ノードの重複コミュニティ構造を推定し，属性情報とあわせて可視化できます．

論文: Kazuki Nakajima, Takeaki Uno. Inference and Visualization of Community Structure in Attributed Hypergraphs Using Mixed-Membership Stochastic Block Models. Social Network Analysis and Mining (2025).

hyper-dK-series
ハイパーグラフの参照モデル・ヌルモデルを生成するための Python/C++ コードです．パラメータ d_v = 0, 1, 2, 2.5 および d_e = 0, 1 に応じて，ノード次数，次数相関，冗長係数，ハイパーエッジサイズなどの統計量を保存したランダム化ハイパーグラフを生成できます． Python 実装では Numba による高速化を行っており，高次リッチクラブ検出用のコードも含まれています．

論文: Kazuki Nakajima, Kazuyuki Shudo, Naoki Masuda. Randomizing hypergraphs preserving degree correlation and local clustering. IEEE Transactions on Network Science and Engineering (2022).

dK-series
重み無しネットワークの参照モデルを生成するための Python パッケージです．パラメータ d = 0, 1, 1.5, 2, 2.5 に応じて，エッジ数，次数分布，次数相関，クラスタ係数までの統計量を保存したランダム・グラフを生成できます． 2026年3月に Python パッケージ dk_series として公開し，d = 1 および d = 2 では単純グラフのサンプリングにも対応しています．