26
May

这几天经常出现打开网站http://www.xxx.com/(担心遭报复,不公开真实域名),右下角就会弹出广告,查看页面源码后发现,网站被劫持了,网页代码变成了:

<html><head><title></title><style type=’text/css’>body {margin: 0px;padding: 0px;overflow:hidden;}</style></head><body><iframe id=’fulliframe’ name=’fulliframe’ src=” width=’100%’ height=’100%’ marginheight=’0′ marginwidth=’0′ frameborder=’0′></iframe><script language=’javascript’ type=’text/javascript’>frames[0].location=window.location;function c(){try{var f=frames[0];var d=f.document;(function(s){})(d.readyState);if(d&&(‘complete’==d.readyState)){document.title=d.title?d.title:”;}else{setTimeout(‘c()’,10);}}catch(ex){try{document.domain=document.domain.replace(/^\w+\./,”);c();}catch(ex){}}};c();</script><script src=’http://111.175.242.14/pagead/ads.js?umask=26&interval=900&vask=2363046158&uid=3200060448&pid=72060127498622873
&o_url=www.caihongtang.com/&aname=21010000&ic=
&vh=00023116,86|00023134,100|00023208,100|00030843,100|00023209,100|00034102,72|00007398,86|00034102,4
&al=32768&ipc_type=CTN&ipc_nid=0′ language=’javascript’ type=’text/javascript’></script></body></html>

26
May

(本文是在2003年垃圾邮件大会上的一个讲话。它描述了我为提高在《一个计划》中提到算法所做的工作,以及我对未来的打算。)

我想在此给出的第一个发现,是一个用于评估科研论文的懒人算法。你只需写下你想写的,不去引用任何前人的工作,然后热心读者会把你应该引用的论文章节都寄给你。我在《一个计划》【1】发表于Slashdot之后发现的这个算法。

垃圾邮件过滤,是文件分类的一个子集,它是一个相当健全的领域。不过关于贝叶斯过滤法最早的两个文献都是在1988年大会上给出的,一个提供者是Pantel和Lin【2】,另一个是微软研究所的一个小组【3】。 More »

25
May

1) 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。
2) 提取邮件主题和邮件体中的独立字串例如 ABC32,¥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3) 每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。
4) 计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)
5) 综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:
A事件—-邮件为垃圾邮件; More »

04
Dec

  <queryParser name=”extlucene” class=”com.chenlb.solr.search.ExtLuceneQParserPlugin” />
  <requestHandler name=”standard” class=”solr.StandardRequestHandler”  default=”true”>
 <!– default values for query parameters –> 
 <lst name=”defaults”> 
  <str name=”echoParams”>explicit</str> 
  <str name=”defType”>extlucene</str> 
 </lst> 
  </requestHandler>

02
Dec

IKAnalyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list 我使用的是最新版3.2.5
Solr1.4下载地址:http://mirror.bjtu.edu.cn/apache//lucene/solr/ 我使用的是最新版1.4.1

配置的过程中走了一点弯路,其实是很简单的:
1、将IKAnalyzer包里面的IKAnalyzer3.2.5Stable.jar,IKAnalyzer.cfg.xml,ext_stopword.dic三个文件拷贝到通过jetty解压war包出来的目录里面的lib目录里。比如我自动解出来的目录是D:\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17,则三个文件应该拷贝到:D:\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17\webapp\WEB-INF\lib下。原本我是将这三个文件拷贝到了D:\example\lib下,浪费了很多时间。

2、在schema.xml里配置需要中文分词的字段类型,有两种方案:
A、   <fieldType name=”text” >  
           <analyzer  class=”org.wltea.analyzer.lucene.IKAnalyzer” />       
         </fieldType> 

B、   <fieldType name=”text” >  
          <analyzer type=”index”> 
             <tokenizer class=”org.wltea.analyzer.solr.IKTokenizerFactory”  isMaxWordLength=”false”/> 
          </analyzer> 
    <analyzer type=”query”> 
             <tokenizer class=”org.wltea.analyzer.solr.IKTokenizerFactory”  isMaxWordLength=”true”/>  
          </analyzer>  
     </fieldType>

配置完,用java -jar start.jar启动即可。如果要启用multicore的话,命令是jar -jar -Dsolr.solr.home=multicore start.jar

祝你好运!!!!

09
Aug

用于快速分析出tag吻合度最高的内容列表,并按吻合程度进行排序。
用途:设每个内容都有一组tag,给出一个内容,需要得出与此内容的tag吻合度最高的n条数据。

用到的技术和数据结构:hash表,链表,list,快速排序,、用二分法方式查找的方式在插入数据的时候即实现排序,二分法查找等等

05
Jul

<style type=”text/css”>
A { text-decoration: NONE; color:#51bfe0}
A:hover {font-weight: bold;color:#990099}
<style>
 
鼠标放在链接字体上的时候,链接字体变粗,颜色改变,其中color:#990099表示链接字体改变的颜色,可以根据个人爱好修改,其他的不需要改。
——————————————————————————–
<style type=”text/css”>
a{text-decoration:none; color:#51bfe0}
A:hover{font-size:23; background:#ffd306; color:#990099}
</style>
 
鼠标鼠标放在链接字体上的时候,链接字体大小改变,颜色改变,有背景颜色。font-size:23表示字体大小;background:#ffd306表示背景颜色color:#990099表示字体颜色,可以根据个人爱好修改,其他的不需要改。 More »

28
Jun

经过初步查证,瑞星网站木马检测的原理为:瑞星杀毒软件或者瑞星卡卡等客户端程序,在用户的电脑上进行监控,当用户访问某个网页出现木马时,再上报到瑞星服务器。导致的恶果就是:如果客户自身电脑存在病毒,或者局域网存在arp病毒,甚至当地运营商的不合法行为,都会导致网页被插入木马,而瑞星也会以此认为是网站不安全。

如果您不信可以在http://union.rising.com.cn/index/index.aspx处查查新浪网,网易,google等几乎不可能被挂马的权威网站。

另外:能不能提供一份坚持到挂马时的网页快照?否则一来容易产生误报纠纷,二来也可以给站长追溯木马的线索,毕竟网页上有木马的起因太复杂了(1、网页确实被篡改;2、机房局域网有arp病毒;3、用户局域网有arp病毒;4、所经过的各级路由的问题)。

要做产品就尽量做好一点,负责一点,毕竟因为您工作的一点点不到位会给很多人造成非常大的麻烦。

06
Jun

2010年6月3日夜(其实是4日凌晨),广告提供者的服务器被入侵,导致本站(彩虹堂http://www.caihongtang.com)放有此广告商广告的页面被挂马。

发现此问题后,广告服务商第一时间进行了处理,360安全监控显示在2010年6月3+1日凌晨1点58分到2点12分监测到有页面被挂马,而且都是放有此广告商广告的页面。随后在我们接到360的通知后,立即跟广告商进行联系,确认问题已经排出,360也第一时间对本站进行确认,取消了对本站的安全提示。

后来我们发现了瑞星也开始向用户提示本站是不安全的网站,连完全没有可能存在木马的页面也被提示为不安全。刚开始首页还是正常了,当广告服务商找瑞星磋商后,不但未能解除封锁,连首页也被提醒不安全了。从和瑞星沟通完成,他们答应会立即取消封锁开始,到现在已经24小时了,瑞星不但没有解决问题,还变本加厉,瑞星你凭什么这么牛?

本站已经从2005年建立到现在已经5年了,经过这5年的辛勤耕耘,好不容易有了现在这个流量和用户。对站长而言,最怕的事情有3件:1、硬盘坏;2、机房被关;3、被挂马。这3件事情我们都碰到过,我们这些草根站长真的很不容易,自己网站的安全还算好控制,合作的广告商和其他一些心术不正的合作者等导致的安全问题真的防不胜防。而这次瑞星的不作为把原本可以立即解决掉的问题放大,对网站的伤害远远大过了安全本身。

最后,奉劝瑞星一句:别把自己当大爷了,先把事情做做好吧。

31
Mar

用户研究到底研究什么?各公司情况不一样,做法自然也不同。比较常见的情况是,很多公司根本不做用户研究,完全凭行业经验和拍脑袋来决定“用户需求”。有一些公司想到了要做用户研究,拿起电话就问:你觉得我们的产品怎么样……哦,挺好的……那就好,于是得出结论:用户喜欢我们的产品。还有一些公司觉得面对面访谈效果好一些,便约好用户,闲聊了几句发现没话说了,好像用户对产品也没什么意见,结果只能结束访谈,最终也没能拿到什么结论。 More »