教育ICTリサーチ ブログ

ICTを教育にどう活用できるか、現場目線でリサーチします。

授業の導入で使える?:くずし字で書かれた古典籍をテキストデータ化するOCR技術

 凸版印刷が、江戸以前のくずし字を高精度にOCRする技術を開発したそうです。この技術は、2013年から提供している「高精度全文テキスト化サービス」をベースに、公立学校法人公立はこだて未来大学が開発した「文書画像で検索システム」と組み合わせ、くずし字で記されている古典籍のOCRが可能になったそうです。ascii.jp


 古典籍は、博物館などでも見る機会がありますが、驚くほど読めないですよね…(笑)興味を持つきっかけとして非常にハードルが高いな、と思っていたので、こうしてOCRでテキストデータになるのは非常に意味があるな、と思いました。
f:id:ict_in_education:20150812182933j:plain


 日経コンピュータでも2015年9月8日付の記事で紹介されていました。itpro.nikkeibp.co.jp


 凸版印刷のリリース の方でも、説明をされているのですが、とてもいいな、と思ったのは、日本文学研究者・東京大学大学院教授 ロバート キャンベル氏のコメントです。以下、転載します。

 私たちは明治以前の日本を知るため、ひたすら文字を読みます。しかし皮肉なことに、その文字は、近代150年の達成と引き換えに、まったく読めなくなってしまいました。活字にだけ頼る人は、日本のことを、ほんの一部しか知ることができません。
 気づきにくいことですが、欧米諸国とちがって、日本人は自らの歴史風土を自在に行き来する能力を失ったのです。それ自体、世界史のなかでも特記すべきことですが、しかしここで新たな技術によって、豊穣な風土がふたたび開かれるかもしれません。驚くべきその可能性に賭けたいと思う。いままで読めなかった数百年分の智恵と笑いと涙こそ、世界遺産だと信じるからです。

凸版印刷|凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発


 まったくそのとおりだと思います。こうしたところにテクノロジーが導入されるのはすばらしいと思います。研究職の方々だけでなく、例えば学校の古典の授業や日本史の授業などの導入で、興味を持たせるために提示することもできるのではないかと思いました。じっくり精読しなくても、最初の部分だけを読むというのもできると思いますし、キーワードになる部分だけを隠して周りに書かれていることから類推してみるなど、さまざまな使い方ができるのではないかな、と思います。


(為田)