スマホで古文書を読む

大澤 留次郎 TOPPAN株式会社
ビジネス 企業 テクノロジー 歴史

 源氏物語のような古典、戦国武将たちの手紙といった古文書は、くずし字で書かれています。約1000年にわたって膨大な古文書が蓄積されてきたのに、それを読める日本人は1000人に1人もいません。

 そのくずし字を、スマホのカメラをかざすだけで解読できるとしたらどうでしょうか。私たちTOPPANは、10年にわたって古文書解読サービス「ふみのは」の開発に取り組んできました。昨年6月にはスマホアプリ「古文書カメラ」をリリースし、数万人の方々にご利用いただいています。

スマホの画面で古文書が解読できる「ふみのは」 ©TOPPAN

 開発のきっかけは、OCR(光学文字認識)技術の見直しでした。OCRとは、手書きや印刷された文字を画像データとして読み取り、テキストデータに変換する技術です。2010年頃から電子書籍ブームとなり、古い文庫本を電子化する動きが加速したことで、印刷会社に対してOCR技術の精度向上が求められたのです。

 OCR技術に磨きをかけ、旧字旧仮名の活字も読み取れるようになると、今度は江戸時代のくずし字をテキスト化してほしいとの依頼が来るようになりました。難易度の高いリクエストでしたが、くずし字を解読するエンジンを開発していた公立はこだて未来大学の寺沢憲吾准教授にご協力いただき、14年にプロトタイプを作ってみました。

 解読済みの古文書から1文字ごとに画像を切り出し、正解のテキストデータを対応させて、くずし字のデータベースを構築します。それをもとに未解読の古文書をどんどん読んでいきました。

 すると、予想以上にうまくいったのです。もちろん5割程度の精度で間違いだらけですが、その結果をデータベースにフィードバックすれば、解読能力はさらに向上していきます。このプロトタイプを国文学研究資料館に検討してもらったところ、「磨けば使いものになる」ということで共同研究が始まりました。

 この過程で大変だったのが、解読結果のチェック作業です。最終的には専門家にお願いするのですが、ボロボロの解読結果では協力してもらえません。まずは私たち開発者が自分でチェックできるように、入門書を読んでくずし字の勉強をしました。新しく配属された女性社員に「くずし字辞典」を渡し、データベースを1文字ずつ確認してもらうという“無茶ぶり”もしました。最初は途方にくれていましたが、半年から1年たつと、かなり読めるようになるのです。専門家によると、古文書を読みたいなら、とにかく多読することが一番の近道なのだそうです。

有料会員になると、この記事の続きをお読みいただけます。

記事もオンライン番組もすべて見放題
初月300円で今すぐ新規登録!

「文藝春秋電子版」は雑誌付きプランが断然お得!! 電子版分は実質無料 今すぐお申し込み

初回登録は初月300円

月額プラン

1ヶ月更新

1,200円/月

初回登録は初月300円
※2カ月目以降は通常価格で自動更新となります。

年額プラン

10,800円一括払い・1年更新

900円/月

1年分一括のお支払いとなります。
※トートバッグ付き

電子版+雑誌プラン

12,000円一括払い・1年更新

1,000円/月

※1年分一括のお支払いとなります
※トートバッグ付き
雑誌プランについて詳しく見る

有料会員になると…

日本を代表する各界の著名人がホンネを語る
創刊100年の雑誌「文藝春秋」の全記事、全オンライン番組が見放題!

  • 最新記事が発売前に読める
  • 毎月10本配信のオンライン番組が視聴可能
  • 編集長による記事解説ニュースレターを配信
  • 過去10年6,000本以上の記事アーカイブが読み放題
  • 電子版オリジナル記事が読める
有料会員についてもっと詳しく見る

source : 文藝春秋 2024年6月号

genre : ビジネス 企業 テクノロジー 歴史