総務省は、すばらしい人工知能を作る予算を請求するらしい
昨日(2008年6月11日)の報道(例:時事通信)によれば、総務省は、ブログや掲示板などにある殺人予告や、そのほか危ない書き込みを自動判別する仕組みを考え予算請求をするんだそうです。すごいですねー。「頃せ」とか「ι示」とか「胃って葦」とかもうまく検知してくれるのでしょうか?さらに、危ない掲示の内容を引用したり、フレームの中で見せていたり、逆に文字を画像化して掲示しているものも検知できるのでしょうか?
総務省の中の人の誰が考えたのかわかりませんが、そんなことができるのかどうか、疑問です。どんな人工知能を作るのでしょうか?それって、税金の無駄使いではないですか?
税金の無駄使いではなく、こうすればできる…というのがあるのでしたら、おしえてエラいひとー
ちなみに昨年、韓国で、超大手ポータルを訪問取材したのですが、たくさんの人が雇われていて、みんなで有害情報を目で見て判断して削除・通報してましたよ。その方がよっぽど現実的です。
| 固定リンク
この記事へのコメントは終了しました。
コメント
初めてコメントいたします。
0円の予算で2時間で作られたシステムが話題になっていますね。
予告.in
http://yokoku.in/
投稿: brain-box | 2008年6月12日 (木) 21:42
brain-boxさん、こんばんは
このページの referer をみると、ほとんどが http://yokoku.in/ です。
ちなみにこのサイトは殺人予告でも犯罪予告でもなく、情報教育を中心とした研究者である僕の個人サイトです。つまり、http://yokoku.in は誤判定をしているから、ここへのリンクが付くんです。
ただ、誤解しないで欲しいので書き足しますが、 http://yokoku.in の性能が悪いとは思っていません。たぶん、0円2時間で作成されたサイトと、2年ン億円で作成されたサイトで格段に性能がちがうとは思えないのです。
だから、yokoku.in を作られた方は拍手喝采に値すると思いますね。
投稿: たつみ | 2008年6月12日 (木) 21:53
辰己先生
この記事の本文中に「殺人予告」という言葉があります。
これがBlog検索で引っかかっているのだと思います。
だとするとまったくの誤判定とは言いがたいかと。
ただ、こういう些細な情報も集めてしまうのは織り込み済みで、それをソーシャルブックマーク的手法などで選り分けていくのだと思います。
その点がどうなっているのか、私はまだよくわかっていないのですが。
投稿: brain-box | 2008年6月12日 (木) 22:22
んー。
総務省さんがやろうとしていることは、「『殺人予告』と書かれているページ」を全部集めてくることではなく、「(文字づらはどうであれ)殺人予告をしているページ」を全部集めることですよね。で、yokoku.in の人が作られたのは、それと同機能があるかもしれないというサイトですよね。となれば、れっきとした誤判定ですよ。
で、こういう誤判定から逃げられっこないだろうというのが、僕の直感で、だから yoyaku.in 程度の精度で十分なんです。たぶん、ン億円かけても、yoyaku.in よりはるかに性能がいいものを作れっこないと思います。
投稿: たつみ | 2008年6月12日 (木) 22:27
ようするにどれだけ効率の良い「スクリーニング」ができるかってコトですよね。
この手のシステムって、そこが割り切れるかどうかが成功と失敗の別れ道な気がします。
投稿: osa | 2008年6月13日 (金) 05:23
>osaさん
そうですそうです。SPAMもそうですが、スクリーニングの精度がどれくらいか、つまり捕獲率(真にクロをどれくらい捕まえるか?)と冤罪率(捕まえられたものの中の真にシロの率)の問題です。
情報リテラシー?のない国会や総務省の中の人にはわからないと思いますが、Spamフィルタの場合、責任をもって提供しても実用になるのは、捕獲率≧98%、冤罪率=0%です。まかりまちがっても冤罪率>0%になってはいけません。しかし、これがかなり厳しい条件で、実際に使われているフィルタの中で、個別化されたベイジアンフィルタを併用しない場合は、捕獲率が60%前後で、冤罪率が0.1%程度ではないでしょうか?
となると、個別化されたベイジアンフィルタが必須ですが、そうなると、ベイジアンフィルタの操作方法を利用者が理解していないとだめ…となります。
僕が実験的に使っているベイジアンフィルタ(Thunderbird 2.0)だと、捕獲率96%で、冤罪率が0.01〜0.03%でした。かなり注意してみないと、ときどき冤罪が起こっています。
ーーーーーーー
で、今回の犯罪予告サイトですが、捕獲率と冤罪率の目標をどの程度に置くのでしょうかね?ニュース記事などを見る限り、総務大臣発言は「数億円の予算があれば、捕獲率100%で、冤罪率0%のものが作れる」と信じているっぽいのです。個人的には、そんなのよりも、毎年数十億円の予算を確保して、若者中心に人を雇い、人間の力で除去するほうがいいと思います。
でもでも、もしかして、僕が不勉強で、実は「捕獲率100%で、冤罪率0%の仕組みができる見込みがあるから、総務大臣から、ああいう発言があった」のだとすれば、おしえてエラい人ーなわけです。
投稿: たつみ | 2008年6月13日 (金) 08:20
「誤判定」という言葉に対する私と辰己先生の認識の違いがわかりました。食い違うはずですね。
私の書き込みが悪かったのだと思いますが「総務省が作りたい機能を実現するもの」ととらえるか(そうすると当然誤判定です)、「こんな程度のものだったら2時間でできたけどという皮肉のための一実装」(単純機能なので仕様としては誤判定ではない)ととらえるか、の違いだったのですね。
予告検知サイトの場合、フォールスポジティブは高くては困りますが、フォールスネガティブは迷惑メールの判定などの比べて多少高い目標でも良いのかもしれませんね。
ちなみに予告.inに対する反響の過剰な大きさを皮肉って予告.outというサイトもできてしまいましたね。
投稿内容を画像化して表示する掲示板だそうです。
こうなると言語処理だけじゃなくて画像認識やCaptchaなどの技術も関連してきてしまいますね。
いたちごっこなのか…
投稿: brain-box | 2008年6月13日 (金) 23:24