2018年5月27日日曜日

書類自動仕分け


https://internet.watch.impress.co.jp/docs/news/1116351.html

スキャンした書類を自動分類して欲しい、という要望は、潜在的・顕在的共に多くあったはずだ。既にGoogleフォトなどでは写真の自動分類をしているが、書類のスキャン画像に関してようやく出てきたサービスとして、とりあえずは歓迎する。

だが、業務用サービスであり完璧を目指しているためかどうか分からないが、システムが大げさに過ぎ、高すぎる。もっとシンプルにして欲しいものだ。欲しいのはこんなサービスだ。
  1. 家庭用サービスである。基本は無料のオンラインサービスまたはソフト、ないしはパッケージ買い切り。オプションで有料というのはあってよい。例えば月間何枚までは無料とか、細かい修正やカスタマイズは有料とかだ。
  2. ユーザは、スキャンした画像を指定のディレクトリに適当に保管するだけ。そこから先は全てバックグラウンドで自動処理とする。つまり、ユーザは何でもとりあえずスキャンして捨ててしまってよい。
  3. あらかじめ大雑把なカテゴリーは準備されていて、学習済みである。書籍、写真、動画、契約書類、取説、カタログ・パンフ・小冊子、レシート(領収書)、などだ。
  4. 更に、書類の作成元や送付先を自動分類する。レシートなら店舗、カタログならメーカー、契約書なら契約先、書籍なら出版社などだ。これには社会常識(世にどんな会社があるか、人の名前や住所として認識できるかなど)が加わった学習になる。
  5. OCRは自動で行う。また写真や動画では顔認識、テレビの録画等ならタイトルや放送日時、放送局などの情報も自動入手する。
  6. 手動で修正した場合、それ(修正されたこと)を認識する。改めてスキャンしても、手動修正の結果は残す。この修正は、教師付き学習の教師データになり得るが、その応用は原則としてローカルに留める。
  7. ファイルには電子透かしでIDを埋め込んでおき、スキャン結果はクラウドサービスに保管可能とする。つまりローミングが可能である。有償で、スキャンデータそのものをオンライン保管するオプションがあってもよい。Googleフォトに入れる案もあるが、Googleに依存するので要注意だ。また書類では、無料の範囲では解像度が足りないだろう。
要は、業務に使用するよりずっと大雑把な運用で、その範囲も広い代わりに正確さが劣っても良い、とするものだ。これなら家の書類の断捨離が簡単にできる。ぜひ検討してもらいたい。

0 件のコメント:

コメントを投稿

注目の投稿:

砂の船

  免震構造については過去いくつか提案しているが、これの新しい版である。 以前、難燃性の油の上に浮かべた船の構造を提案したことがある。あれの砂版である。つまり、砂のプールを作っておいて、その上に浮かべるというものだ。砂が抵抗となって振動を軽減する。 ただし、油や水と違って砂の...

人気の投稿: