S M T W T F S
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
カテゴリ
ブログパーツ
以前の記事
最新のトラックバック
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
what about?
[WEB2.0]
[net community]
only personal note
anymore?


masaqui[at]gmail.com

グルメ情報

[チミンモラスイ!]
[iddy profile]
[about me]
store of amazon
100SHIKI PR Board

Webスカウター情報 [Web Scouter]
スカウター : チミンモラスイ?

ページランク



ASPアクセス解析

google proxy
mobile view

lou_trans


LINKZ
--

あわせて読みたい

MoKuJi
タグ
検索
ライフログ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧

ブロ電™切符

スパム判別技術 by ニフティ研究所
ニフティからスパムブログを自動的に判別できるスパムブログのフィルタリング技術を開発というプレスリリースとともに、たいへん興味深い調査結果が発表されております。

国内ブログの4割はスパム--ニフティ、スパムブログを自動判別するフィルタリング技術を開発」2008.3.26 @CNET
 ニフティは3月26日、同社のマーケティング分野の社内研究機関である「ニフティ研究所」で、インターネット上のさまざまなスパムブログを自動的に判別できるフィルタリング技術を開発したと発表した。

→「ニフティ、スパムブログのフィルタリング技術を開発」2008.3.26 @ニフティ株式会社 プレスリリース

【関連記事】
「日本のブログ、4割がスパム」――ニフティが新技術で分析」2008.3.26 @ITmedia
ニフティがスパムブログの判別技術を開発、国内記事の約4割がスパム」2008.3.26 @INTERNET Watch
日本のブログのなんと約40%がスパムブログであることが判明」2008.3.26 @GIGAZINE
:



プレスリリースに詳細がありますが、ニフティのブログ評判分析サービス「BuzzPulse(バズパルス)」にて、国内の約9割強のブログ4.5億記事(2008年3月現在)を分析対象として、その中のブログ記事中に占める、スパムブログ率、並びにその種類等を調査したとのことです。

【国内のスパムブログの状況】
「BuzzPulse」で分析対象としているブログ記事のうち、2007年10月~2008年2月の各月ごとにそれぞれ約10万記事をサンプリングして、スパムブログの割合を調査しました。その結果、5ヶ月間の平均で、約40%がスパムブログという結果が分かりました。

○2007年10月: 39.3%
○2007年11月: 40.1%
○2007年12月: 39.7%
○2008年 1月: 39.9%
○2008年 2月: 40.5%


実際の調査は、調査期間の各月ごとに約10万記事をサンプリングとのことですので、全数を調査ということではありませんが、各月でのスパムの出現の割合がほぼ一定となっていることから統計的に信頼できる抜き取りとなっているといえそうです。

感覚的にも半分くらいはスパム的なコンテンツが生産されているのかなと感じておりましたが、もうちょっと少なかったようです。

とはいえ、4割がスパムということを考えると、GoogleやYahoo!の最近の検索結果で目にする割合より圧倒的に多い(検索結果で目にする割合の方が少ない)ので、やはり検索エンジンの構文解析機能が進化しているのとフィルタリング・スコアリングも進化しているということでしょうか。
(残念ながら、多くのブログ検索では更新時間を優先するので、スパムブログとの接触確率はもっと高くなってしまっていますが…)


そういえば、メールの9割近くがスパムというような話題も以前にありましたが…

→「ネット上の電子メールの86%はスパム」2006.6.19 @GIGAZINE
→「2007年に送られたメールのうち95%はスパム」2007.12.13 @GIGAZINE

メールの場合にはプッシュ型なので、たとえメールクライアント側でフィルタリングしていたとしてもメールサーバーには届くわけなので、帯域を占有することになりますので、スパムブログよりもさらに性質が悪いということになります。

とはいえ、ブログではトラックバックというしくみがあったりということもあって、かならずしも検索エンジンによるプル型だけではないということも考えないといけないかと思います。


で、どういったものがスパムブログと定義されているかというと、今回のプレスリリースに以下のようにあります。

【スパムブログの種類】
○自動生成系
・引用スパム
・アフィリエイトスパム
・ワードサラダ
・自動マルチポスト

○アダルト系
・わいせつ記事
・出会い系
・ワンクリック詐欺


あと、引用が伴わないで、リンク無トラックバック禁止への対策としてエントリのタイトルだけのリンクを生成してリストした個人ニュースサイトを模したような自動生成プログラムもありますが、これは厳密には上記に当てはまらないとおもいますが、スパムとしてはカウントしていないのかな??

これらのそれぞれの出現率も知りたいところですが、どうなんでしょう?

個人で利用できるAdSense的な自動広告のプログラムの存在によって、自動生成(機械生成)によるスパムというのは今後も増えてくることになるのではないかと思いますが…


スパムブログの存在によって、リンクポピュラリティに支えられた検索エンジンのスコアリングアルゴリズムの崩壊という危惧も、コンテンツ自体を評価することで信頼性を取り戻すことになるのではないでしょうか。


今回、ニフティが開発したという"スパムブログのフィルタリング技術"についての詳細の情報がないのでどういう技術なのかがよくわからないのですが、これまでの各種ブログサービスで提供されているトラックバックのスパムフィルターとは一線を画すような技術なのかしら…

ブラックリスト的なところでは業者系のスパムというのはメンテナンスによって排他していくことができるとは思いますが、ワードサラダ的な自動生成などは巧妙になっていって結局はそれもいたちごっこというようなところもあるのかもですが…

→「ブログにスパムの悪夢再び 抜本的対策なく」2005.12.20 @ITmedia

この記事の頃よりは、技術的にも両者とも格段に進歩はしているのでしょうね。


まあ、なんというか…僕のようなチラシの裏のような内容のエントリを重ねているブログも、機械が生成しているわけではないというだけで、はたして価値があるものなのかということも考えないといけないところですね(笑)


ブログエントリを篩いにかけるしくみとしての"ソーシャルブックマーク"についても、最近またその是非について議論がなされているようですが、そのあたりも別の機会に触れてみることにします。
[PR]

by p-article | 2008-03-27 01:09 | コミュニティ
<< Web Business Sh... [書評]「儲かるお店のネットエ... >>