AIでくずし字を読む

巻頭随筆

カラーヌワット・タリン 人文学オープンデータ共同利用センター特任研究員
ニュース 国際 歴史

 江戸時代以前の古典籍や古文書などを合わせると、日本には1億点以上の文字史料が現存しています。これだけ膨大な数の史料が残る国は、世界的にみても非常に稀です。

 ただし、それらの貴重な史料は十分に活用されていません。その大半が、古代から1,000年以上にわたり使われてきた筆記体「くずし字」で書かれているため、源氏物語や織田信長の書状といった有名な史料を除けば、現代の日本語文字に置き換える「翻刻」をされているのはごくわずかなのです。

 現在、くずし字を読むことができるのはわずか数1,000人、人口の0.1%ほどといわれています。人間の手で残りの史料を翻刻しようとすれば、何百年もかかってしまう。歴史学や国文学の発展のためには、大量のくずし字をどう読み解くかが重要な課題となっているのです。

 私も母国・タイから日本に留学した当初は、くずし字の読解に苦労しました。元々、早稲田大学の大学院で源氏物語を専攻していましたが、論文を書く度に大量の史料を翻刻しないといけないので、「自動で翻刻してくれる機械があればいいのに」と願っていたものです。

 くずし字を翻刻するAI技術の研究に着手したのは2018年でした。全国の大学の共同研究機関である「情報・システム研究機構」の傘下にある、人文学オープンデータ共同利用センターの研究員に就任し、センター長の北本朝展先生とカナダのAI研究者、アレックス・ラム氏と協力して、「KuroNet」の開発を始めたのです。

 その仕組みは簡単です。まず史料を、JPEG形式の画像データとして読み込みます。すると、わずか1秒で、くずし字の隣に現代日本語の翻刻文がルビのように赤字で表示されるのです。開発から1年が経ち、いまでは85%を超える精度で翻刻することができます。

有料会員になると、この記事の続きをお読みいただけます。

記事もオンライン番組もすべて見放題
初月300円で今すぐ新規登録!

初回登録は初月300円

月額プラン

1ヶ月更新

1,200円/月

初回登録は初月300円
※2カ月目以降は通常価格で自動更新となります。

年額プラン

10,800円一括払い・1年更新

900円/月

1年分一括のお支払いとなります。
※トートバッグ付き

電子版+雑誌プラン

12,000円一括払い・1年更新

1,000円/月

※1年分一括のお支払いとなります
※トートバッグ付き
雑誌プランについて詳しく見る

有料会員になると…

日本を代表する各界の著名人がホンネを語る
創刊100年の雑誌「文藝春秋」の全記事、全オンライン番組が見放題!

  • 最新記事が発売前に読める
  • 毎月10本配信のオンライン番組が視聴可能
  • 編集長による記事解説ニュースレターを配信
  • 過去10年6,000本以上の記事アーカイブが読み放題
  • 電子版オリジナル記事が読める
有料会員についてもっと詳しく見る

source : 文藝春秋 2019年10月号

genre : ニュース 国際 歴史