2018年5月27日日曜日

書類自動仕分け


https://internet.watch.impress.co.jp/docs/news/1116351.html

スキャンした書類を自動分類して欲しい、という要望は、潜在的・顕在的共に多くあったはずだ。既にGoogleフォトなどでは写真の自動分類をしているが、書類のスキャン画像に関してようやく出てきたサービスとして、とりあえずは歓迎する。

だが、業務用サービスであり完璧を目指しているためかどうか分からないが、システムが大げさに過ぎ、高すぎる。もっとシンプルにして欲しいものだ。欲しいのはこんなサービスだ。
  1. 家庭用サービスである。基本は無料のオンラインサービスまたはソフト、ないしはパッケージ買い切り。オプションで有料というのはあってよい。例えば月間何枚までは無料とか、細かい修正やカスタマイズは有料とかだ。
  2. ユーザは、スキャンした画像を指定のディレクトリに適当に保管するだけ。そこから先は全てバックグラウンドで自動処理とする。つまり、ユーザは何でもとりあえずスキャンして捨ててしまってよい。
  3. あらかじめ大雑把なカテゴリーは準備されていて、学習済みである。書籍、写真、動画、契約書類、取説、カタログ・パンフ・小冊子、レシート(領収書)、などだ。
  4. 更に、書類の作成元や送付先を自動分類する。レシートなら店舗、カタログならメーカー、契約書なら契約先、書籍なら出版社などだ。これには社会常識(世にどんな会社があるか、人の名前や住所として認識できるかなど)が加わった学習になる。
  5. OCRは自動で行う。また写真や動画では顔認識、テレビの録画等ならタイトルや放送日時、放送局などの情報も自動入手する。
  6. 手動で修正した場合、それ(修正されたこと)を認識する。改めてスキャンしても、手動修正の結果は残す。この修正は、教師付き学習の教師データになり得るが、その応用は原則としてローカルに留める。
  7. ファイルには電子透かしでIDを埋め込んでおき、スキャン結果はクラウドサービスに保管可能とする。つまりローミングが可能である。有償で、スキャンデータそのものをオンライン保管するオプションがあってもよい。Googleフォトに入れる案もあるが、Googleに依存するので要注意だ。また書類では、無料の範囲では解像度が足りないだろう。
要は、業務に使用するよりずっと大雑把な運用で、その範囲も広い代わりに正確さが劣っても良い、とするものだ。これなら家の書類の断捨離が簡単にできる。ぜひ検討してもらいたい。

0 件のコメント:

コメントを投稿

注目の投稿:

超音波モーターの原理によるVR用トレッドミル

  VRにおけるリアリティ問題の一つに、その場で動くのではなく移動する場合、つまり歩いたり走ったりすることが挙げられる。実際にはその場にいるので、歩いたかのように足場を調節してやる必要がある。 これを実現する方法として、すり鉢状の滑りやすい足場を作っておく方法と、トレッドミルを使...

人気の投稿: