データ・コード
公開しているデータとコードを抜粋しています.
論文・発表のページにも該当する論文のところに載せています.
データ
-
CitationCS データセット
情報学分野の国際会議論文とジャーナル論文を対象とした引用データセットです.
OpenAlex,DBLP,CORE,SCImago の情報を統合して構築しており,3,720,575件の論文メタデータと22,908,275件の内部引用を含みます.
データは JSON Lines 形式で提供されています.
論文1: Kazuki Nakajima, Yuya Sasaki, Sohei Tokuno, and George Fletcher. Quantifying gendered citation imbalance in computer science conferences. Proc. AIES (2024).
論文2: Kazuki Nakajima, Yuya Sasaki, Sohei Tokuno, and George Fletcher. Systemic Gendered Citation Imbalance in Computer Science: Evidence from Conferences and Journals. Scientometrics (2025).
-
cs-cocitations データ
高被引用の情報学分野論文をノードとし,共引用関係をハイパーエッジとして表現した共引用ハイパーグラフのデータです.
OpenAlex Snapshot(2024-09-27)から構築しており,
3,118件の論文ノードと53,886件のハイパーエッジを含みます.
各ノードには,OpenAlex work ID,論文タイトル,出版日,トピック,サブフィールド,フィールド,ドメイン,被引用数などの属性が付与されています.
論文: Kazuki Nakajima, Yuya Sasaki, Takeaki Uno, and Masaki Aida. Learning Multi-Order Block Structure in Higher-Order Networks. arXiv preprint (2025).
コード
-
HyperMOSBM
高次ネットワークにおける相互作用の次数(ハイパーエッジサイズ)ごとの構造を学習するための確率的ブロックモデルの Python コードです.
相互作用の次数の集合の最適な分割を推定し,ハイパーグラフのメゾスコピック構造を捉えます.
論文: Kazuki Nakajima, Yuya Sasaki, Takeaki Uno, and Masaki Aida. Learning Multi-Order Block Structure in Higher-Order Networks. arXiv preprint (2025).
-
研究者人口ピラミッド可視化ツール
出版データを用いて,国別の研究者人口構造とジェンダーバランスの変化を可視化・診断するための Python コードです.
著者ごとの出版年系列から研究者人口ピラミッドを構築し,学術エコシステムの人口動態や将来の変化を分析できます.
論文: Kazuki Nakajima and Takayuki Mizuno. Researcher Population Pyramids: Tracking Demographic and Gender Trajectories Across Countries. PNAS Nexus (2025).
-
HyperNEO
属性付きハイパーグラフのコミュニティ構造を推定・可視化するための Python コードです. ハイパーグラフ向けの混合メンバーシップ確率的ブロックモデルと次元削減法を組み合わせることで, ノードの重複コミュニティ構造を推定し,属性情報とあわせて可視化できます.
論文: Kazuki Nakajima, Takeaki Uno. Inference and Visualization of Community Structure in Attributed Hypergraphs Using Mixed-Membership Stochastic Block Models. Social Network Analysis and Mining (2025).
-
hyper-dK-series
ハイパーグラフの参照モデル・ヌルモデルを生成するための Python/C++ コードです.
パラメータ dv = 0, 1, 2, 2.5 および de = 0, 1 に応じて,
ノード次数,次数相関,冗長係数,ハイパーエッジサイズなどの統計量を保存したランダム化ハイパーグラフを生成できます.
Python 実装では Numba による高速化を行っており,高次リッチクラブ検出用のコードも含まれています.
論文: Kazuki Nakajima, Kazuyuki Shudo, Naoki Masuda. Randomizing hypergraphs preserving degree correlation and local clustering. IEEE Transactions on Network Science and Engineering (2022).
-
dK-series
重み無しネットワークの参照モデルを生成するための Python パッケージです.
パラメータ d = 0, 1, 1.5, 2, 2.5 に応じて,エッジ数,次数分布,次数相関,クラスタ係数までの統計量を保存したランダム・グラフを生成できます.
2026年3月に Python パッケージ dk_series として公開し,d = 1 および d = 2 では 単純グラフのサンプリングにも対応しています.