カテゴリ
ブログパーツ
以前の記事
2011年 01月 2010年 12月 2010年 11月 2010年 10月 2010年 09月 2010年 08月 2010年 07月 2010年 06月 2010年 05月 2010年 04月 2010年 03月 2010年 02月 2010年 01月 2009年 12月 2009年 11月 2009年 10月 2009年 09月 2009年 08月 2009年 07月 2009年 06月 2009年 05月 2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 09月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 03月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 最新のトラックバック
what about?
[WEB2.0]
[net community] only personal note anymore? masaqui[at]gmail.com グルメ情報 [チミンモラスイ!] [iddy profile] [about me] store of amazon 100SHIKI PR Board google proxy mobile view lou_trans LINKZ -- MoKuJi タグ
タモリ(211)
SNS(198) Google(81) グルメ(78) Blog(77) イベント(77) 地域情報(25) WEB2.0(24) amazon(16) SBM(15) HT-03A(14) モニター(14) twitter(9) マメログ(8) metaverse(7) 百式ポイント(6) ジオメディア(5) 検索
ライフログ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧
|
ニフティからスパムブログを自動的に判別できるスパムブログのフィルタリング技術を開発というプレスリリースとともに、たいへん興味深い調査結果が発表されております。
「国内ブログの4割はスパム--ニフティ、スパムブログを自動判別するフィルタリング技術を開発」2008.3.26 @CNET ニフティは3月26日、同社のマーケティング分野の社内研究機関である「ニフティ研究所」で、インターネット上のさまざまなスパムブログを自動的に判別できるフィルタリング技術を開発したと発表した。 →「ニフティ、スパムブログのフィルタリング技術を開発」2008.3.26 @ニフティ株式会社 プレスリリース 【関連記事】 「「日本のブログ、4割がスパム」――ニフティが新技術で分析」2008.3.26 @ITmedia 「ニフティがスパムブログの判別技術を開発、国内記事の約4割がスパム」2008.3.26 @INTERNET Watch 「日本のブログのなんと約40%がスパムブログであることが判明」2008.3.26 @GIGAZINE : プレスリリースに詳細がありますが、ニフティのブログ評判分析サービス「BuzzPulse(バズパルス)」にて、国内の約9割強のブログ4.5億記事(2008年3月現在)を分析対象として、その中のブログ記事中に占める、スパムブログ率、並びにその種類等を調査したとのことです。 【国内のスパムブログの状況】 実際の調査は、調査期間の各月ごとに約10万記事をサンプリングとのことですので、全数を調査ということではありませんが、各月でのスパムの出現の割合がほぼ一定となっていることから統計的に信頼できる抜き取りとなっているといえそうです。 感覚的にも半分くらいはスパム的なコンテンツが生産されているのかなと感じておりましたが、もうちょっと少なかったようです。 とはいえ、4割がスパムということを考えると、GoogleやYahoo!の最近の検索結果で目にする割合より圧倒的に多い(検索結果で目にする割合の方が少ない)ので、やはり検索エンジンの構文解析機能が進化しているのとフィルタリング・スコアリングも進化しているということでしょうか。 (残念ながら、多くのブログ検索では更新時間を優先するので、スパムブログとの接触確率はもっと高くなってしまっていますが…) そういえば、メールの9割近くがスパムというような話題も以前にありましたが… →「ネット上の電子メールの86%はスパム」2006.6.19 @GIGAZINE →「2007年に送られたメールのうち95%はスパム」2007.12.13 @GIGAZINE メールの場合にはプッシュ型なので、たとえメールクライアント側でフィルタリングしていたとしてもメールサーバーには届くわけなので、帯域を占有することになりますので、スパムブログよりもさらに性質が悪いということになります。 とはいえ、ブログではトラックバックというしくみがあったりということもあって、かならずしも検索エンジンによるプル型だけではないということも考えないといけないかと思います。 で、どういったものがスパムブログと定義されているかというと、今回のプレスリリースに以下のようにあります。 【スパムブログの種類】 あと、引用が伴わないで、リンク無トラックバック禁止への対策としてエントリのタイトルだけのリンクを生成してリストした個人ニュースサイトを模したような自動生成プログラムもありますが、これは厳密には上記に当てはまらないとおもいますが、スパムとしてはカウントしていないのかな?? これらのそれぞれの出現率も知りたいところですが、どうなんでしょう? 個人で利用できるAdSense的な自動広告のプログラムの存在によって、自動生成(機械生成)によるスパムというのは今後も増えてくることになるのではないかと思いますが… スパムブログの存在によって、リンクポピュラリティに支えられた検索エンジンのスコアリングアルゴリズムの崩壊という危惧も、コンテンツ自体を評価することで信頼性を取り戻すことになるのではないでしょうか。 今回、ニフティが開発したという"スパムブログのフィルタリング技術"についての詳細の情報がないのでどういう技術なのかがよくわからないのですが、これまでの各種ブログサービスで提供されているトラックバックのスパムフィルターとは一線を画すような技術なのかしら… ブラックリスト的なところでは業者系のスパムというのはメンテナンスによって排他していくことができるとは思いますが、ワードサラダ的な自動生成などは巧妙になっていって結局はそれもいたちごっこというようなところもあるのかもですが… →「ブログにスパムの悪夢再び 抜本的対策なく」2005.12.20 @ITmedia この記事の頃よりは、技術的にも両者とも格段に進歩はしているのでしょうね。 まあ、なんというか…僕のようなチラシの裏のような内容のエントリを重ねているブログも、機械が生成しているわけではないというだけで、はたして価値があるものなのかということも考えないといけないところですね(笑) ブログエントリを篩いにかけるしくみとしての"ソーシャルブックマーク"についても、最近またその是非について議論がなされているようですが、そのあたりも別の機会に触れてみることにします。
by p-article
| 2008-03-27 01:09
| コミュニティ
|
ファン申請 |
||