2018年5月27日日曜日

書類自動仕分け


https://internet.watch.impress.co.jp/docs/news/1116351.html

スキャンした書類を自動分類して欲しい、という要望は、潜在的・顕在的共に多くあったはずだ。既にGoogleフォトなどでは写真の自動分類をしているが、書類のスキャン画像に関してようやく出てきたサービスとして、とりあえずは歓迎する。

だが、業務用サービスであり完璧を目指しているためかどうか分からないが、システムが大げさに過ぎ、高すぎる。もっとシンプルにして欲しいものだ。欲しいのはこんなサービスだ。
  1. 家庭用サービスである。基本は無料のオンラインサービスまたはソフト、ないしはパッケージ買い切り。オプションで有料というのはあってよい。例えば月間何枚までは無料とか、細かい修正やカスタマイズは有料とかだ。
  2. ユーザは、スキャンした画像を指定のディレクトリに適当に保管するだけ。そこから先は全てバックグラウンドで自動処理とする。つまり、ユーザは何でもとりあえずスキャンして捨ててしまってよい。
  3. あらかじめ大雑把なカテゴリーは準備されていて、学習済みである。書籍、写真、動画、契約書類、取説、カタログ・パンフ・小冊子、レシート(領収書)、などだ。
  4. 更に、書類の作成元や送付先を自動分類する。レシートなら店舗、カタログならメーカー、契約書なら契約先、書籍なら出版社などだ。これには社会常識(世にどんな会社があるか、人の名前や住所として認識できるかなど)が加わった学習になる。
  5. OCRは自動で行う。また写真や動画では顔認識、テレビの録画等ならタイトルや放送日時、放送局などの情報も自動入手する。
  6. 手動で修正した場合、それ(修正されたこと)を認識する。改めてスキャンしても、手動修正の結果は残す。この修正は、教師付き学習の教師データになり得るが、その応用は原則としてローカルに留める。
  7. ファイルには電子透かしでIDを埋め込んでおき、スキャン結果はクラウドサービスに保管可能とする。つまりローミングが可能である。有償で、スキャンデータそのものをオンライン保管するオプションがあってもよい。Googleフォトに入れる案もあるが、Googleに依存するので要注意だ。また書類では、無料の範囲では解像度が足りないだろう。
要は、業務に使用するよりずっと大雑把な運用で、その範囲も広い代わりに正確さが劣っても良い、とするものだ。これなら家の書類の断捨離が簡単にできる。ぜひ検討してもらいたい。

0 件のコメント:

コメントを投稿

注目の投稿:

ダイナミック租税とその指標

今の法律では、税率は一定の計算式で表されるが、そのパラメータは固定である。需要と供給のバランスによって商品の価格を変えるダイナミックプライシングというのがあるが、あれを租税にも適用してはどうかと考えてみた。 納税者の声をベースにして様々な租税や補助金を自動調節して、どこか一箇所...

人気の投稿: