Wikipedia 記事中の数値が参照する統計データのセルを特定するためのベンチマークデータセット。
- 入力: クエリ q = (数値, 数値を含む文書) と検索対象文書集合 D(統計データのセル群)
- 出力: ランキング (d₁, d₂, ..., dₖ) ただし dᵢ ∈ D
- タスク: 統計データ中の正解セルを上位にランクすること
WikiStatCells/
├── ja/ # 日本語版
│ ├── gold_data.jsonl # 正解データ(数値→対応セルのマッピング)
│ ├── numbers.jsonl # アノテーション済み数値データ(位置情報付き)
│ ├── wiki_pages.jsonl # 対応する Wikipedia 記事(セクション構造付き)
│ ├── stats.jsonl # 統計データのセル展開 JSONL(stats/ から生成)
│ ├── source_urls.jsonl # stats/ の出典情報(e-Stat URL等)
│ └── stats/ # 引用先の統計データファイル群
│ ├── {stat_id}.csv
│ ├── {stat_id}.xlsx
│ └── ...
├── en/ # 英語版
│ ├── gold_data.jsonl
│ ├── numbers.jsonl
│ ├── wiki_pages.jsonl
│ ├── stats.jsonl
│ ├── source_urls.jsonl # stats/ ファイル名→元URLの対応表
│ └── stats/
│ ├── {filename}.csv
│ ├── {filename}.xls
│ └── ...
└── README.md
- Python 3.12 以上
- 依存ライブラリ(
uv runで自動インストール) uvが利用可能であること
stats/ 配下の統計ファイルから stats.jsonl を生成するには、プロジェクトルート(dds_dataset/)で以下を実行する。
uv run python main.py --lang ja
uv run python main.py --lang en以下は論文記載値(WikiStatCells の正解値)に基づく。
| 項目 | 件数 |
|---|---|
| 正解データ(gold_data.jsonl) | 178 |
| numbers.jsonl | 178 |
| Wikipedia 記事数(wiki_pages.jsonl) | 77 |
| 統計データファイル数(stats/) | 26 |
| 項目 | 件数 |
|---|---|
| 正解データ(gold_data.jsonl) | 1,268 |
| numbers.jsonl | 1,268 |
| Wikipedia 記事数(wiki_pages.jsonl) | 560 |
| 統計データファイル数(stats/) | 154 |
正解データ。各行は1つの「数値→統計セル」の対応を表す。
{
"topic_id": "TOPIC-JA-0001",
"doc_id": "3146",
"section_id": 6,
"start": 65,
"end": 72,
"raw": "250,300",
"value": 250300,
"answer": {
"stat_id": "000027468495",
"sheet_name": "ほうれんそう",
"row": 14,
"column": 4
}
}| フィールド | 型 | 説明 |
|---|---|---|
topic_id |
string | クエリの一意識別子(日本語: TOPIC-JA-XXXX、英語: TOPIC-EN-XXXX) |
doc_id |
string | Wikipedia 記事 ID |
section_id |
int | 記事内のセクション番号(0始まり) |
start |
int | セクションテキスト内の数値開始位置(文字単位) |
end |
int | セクションテキスト内の数値終了位置(文字単位) |
raw |
string | テキスト中の数値の原表記(例: "250,300") |
value |
number | パース後の数値(例: 250300) |
answer.stat_id |
string | 正解セルが含まれる統計データの ID |
answer.sheet_name |
string | 正解セルが含まれるシート名 |
answer.row |
int | 正解セルの行番号(0始まり) |
answer.column |
int | 正解セルの列番号(0始まり) |
数値の位置は wiki_pages.jsonl のセクションテキストと対応しており、以下で原表記を復元できる:
section = page["sections"][entry["section_id"]]
assert section["text"][entry["start"]:entry["end"]] == entry["raw"]注: 英語版では一部のエントリで
rawに修飾語が含まれる場合がある(例:"minus 381,403")。この場合、start/endは数字部分のみを指す。
wiki_pages.jsonl・stats/・gold_data.jsonl から再構築した数値データ。
各エントリは gold_data.jsonl のトピックに対応し、cells には値一致セル候補を含む。
{
"topic_id": "TOPIC-JA-0001",
"doc_id": "3146",
"section_id": 6,
"start": 65,
"end": 72,
"raw": "250,300",
"value": 250300,
"cells": [
{
"stat_id": "000027468495",
"sheet_name": "ほうれんそう",
"row": 14,
"col": 4
}
]
}| フィールド | 型 | 説明 |
|---|---|---|
doc_id |
string | Wikipedia 記事 ID |
section_id |
int | セクション番号 |
start / end |
int | 数値の位置(セクションテキスト内) |
raw |
string | 数値の原表記 |
value |
number | パース後の数値 |
cells |
array | 値が一致した統計データセルの候補リスト |
cells[].stat_id |
string | 統計データ ID |
cells[].sheet_name |
string | シート名 |
cells[].row / col |
int | セル座標(0始まり) |
topic_id |
string | クエリの一意識別子(日本語版では gold_data.jsonl に正解が存在する場合のみ付与) |
データセットに関連する Wikipedia 記事。セクション構造付き。
{
"doc_id": "428",
"title": "広島県",
"sections": [
{
"section_id": 0,
"title": "",
"level": -1,
"text": "セクション本文..."
}
]
}| フィールド | 型 | 説明 |
|---|---|---|
doc_id |
string | Wikipedia 記事 ID |
title |
string | 記事タイトル |
sections |
array | セクションのリスト |
sections[].section_id |
int | セクション番号(0始まり) |
sections[].title |
string | セクション見出し(冒頭部分は空文字列) |
sections[].level |
int | 見出しレベル(-1: 冒頭、2以上: サブセクション) |
sections[].text |
string | セクション本文 |
注: 日本語版では
refs(参照リスト)およびtables(テーブルリスト)フィールドが追加で含まれる。
引用先の統計データファイル群。gold_data.jsonl および numbers.jsonl の stat_id と対応する。
- 日本語版: ファイル名は e-Stat の統計データ ID(例:
000027468495.xlsx)。出典情報はsource_urls.jsonlを参照。 - 英語版: ファイル名はデータソース URL の MD5 ハッシュ値(例:
ed54d51b9d98666ead787be49913be4d.csv)。元 URL との対応はsource_urls.jsonlを参照。 - 形式は
.csv/.xlsx/.xlsを含む。
stats/ に含まれる統計データファイルの出典情報。日本語版と英語版でスキーマが異なる。
日本語版: e-Stat の統計データ ID・URL・タイトル、および NTCIR Data Search コレクション内のファイル名を記録。
{
"stat_id": "000027468495",
"estat_url": "https://www.e-stat.go.jp/stat-search/files?page=1&layout=dataset&stat_infid=000027468495",
"title": "作物統計調査 ...",
"ntcir_filename": "e567b0ac...-f005-25-032.xlsx"
}| フィールド | 型 | 説明 |
|---|---|---|
stat_id |
string | e-Stat 統計データ ID(stats/ 内のファイル名のステムに対応) |
estat_url |
string | e-Stat 上の統計データページ URL |
title |
string | NTCIR Data Search コレクションに登録された統計表のタイトル |
ntcir_filename |
string | NTCIR Data Search テストコレクション内のファイル名 |
英語版: ハッシュベースファイル名とクローリング元 URL の対応。
{
"filename": "ed54d51b9d98666ead787be49913be4d.csv",
"source_url": "https://www.census.gov/popest/states/tables/NST-EST2008-04.csv"
}| フィールド | 型 | 説明 |
|---|---|---|
filename |
string | stats/ 内のファイル名(MD5ハッシュ + 拡張子) |
source_url |
string | 統計データのクローリング元 URL |
stats/ 配下の統計ファイルをシート構造付きで1ファイルに集約した JSONL。main.py で生成する。各行は1統計ファイルに対応し、全シートのセルデータを保持する。
{
"filename": "000027468495.xlsx",
"stat_id": "000027468495",
"lang": "ja",
"format": "xlsx",
"data": {
"ほうれんそう": [
{"row": 14, "col": 4, "value": 250300}
]
},
"cell_count": 1234
}| フィールド | 型 | 説明 |
|---|---|---|
filename |
string | 元ファイル名(拡張子あり) |
stat_id |
string | 統計データ ID(日本語版: ファイル名のステム、英語版: ファイル名全体) |
lang |
string | 言語コード ("ja" または "en") |
format |
string | ファイル形式 ("csv", "xlsx", "xls") |
data |
object | シート名をキーとするセルデータの辞書 |
data[sheet][].row |
int | セル行番号(0始まり) |
data[sheet][].col |
int | セル列番号(0始まり) |
data[sheet][].value |
any | セル値 |
cell_count |
int | 全シートのセル数合計 |
- Wikipedia 記事(日本語版): 日本語版 Wikipedia(2020年6月1日時点の CirrusSearch ダンプ)
- Wikipedia 記事(英語版): 英語版 Wikipedia(2021年10月4日時点の CirrusSearch ダンプ)
- 統計データ(日本語版): e-Stat(政府統計の総合窓口)、NTCIR Data Search テストコレクション経由で収集
- LICENSE: 政府標準利用規約(第2.0版) https://www.e-stat.go.jp/terms-of-use
- 統計データ(英語版): 米国国勢調査局(census.gov)および英国国家統計局(ons.gov.uk)の公開統計データをクローリングして収集
- LICENSE:
- 米国国勢調査局(census.gov): Public Domain https://ask.census.gov/prweb/PRServletCustom/app/ECORRAsk/YACFBFye-rFIz_FoGtyvDRUGg1Uzu5Mn*/!STANDARD?pzuiactionrrr=CXtpbn0rTEpMcGRYOG1vS0tqTFAwaENUZWpvM1NNWEMzZ3p5aFpnWUxzVmw0TjJpQS85RkNvUXZDRVRQWWtWSDFQaWZj
- 英国国家統計局(ons.gov.uk): Open Government Licence v3.0 https://www.ons.gov.uk/
- LICENSE:
中野 優, 加藤 誠. 「被引用統計データのセル特定データセットの構築」 DDS, Vol.1, Article No.1, 2023年3月.