• 体育啊体育

    【神仙】 2007-06-22 21:21

      这两天每天都往学校跑一趟,为什么呢?就因为那个要命的体育成绩。我体育一向不好,从有体育课开始就少有及格。大学里四个体育考试挂了三个,其中一个补考过了,还有两个重修。其中一个重修过了之后,由于学校糟糕的教务系统,成绩没登上去,跑了一回后解决了。还有一个因为我自己失误,错过了最后一次考试,成绩没了,这几天主要就在解决这个问题。总算最后和体育系的老师达成了一个都能接受的方案,我再上两次课,补一次考试。今天终于算是搞定了,不容易啊。

      今天拿到办离校手续的表了。回头研究下盖章方案。请假是要RMB的,还影响工作啊~~~

  • 中文分词方法简介(毕业论文节选)

    【神仙】 2007-06-21 21:02
      中文与西方文字不同,西方文字如英文的单词间有空格作为分隔,计算机很容易把一个个词分开。而中文句子里的之间没有分隔,要把中文句子拆分成词就需要使用中文分词技术。由于全文索引采用的是倒排索引技术,所以分词的效果直接决定了搜索的效果。
      目前的中文分词技术主要有:n元切分、最长匹配、最大压缩、统计语言模型等方法。n元切分,即机械切分。就是把中文句子每n个字分成一个“词”。比如,“我是大学生”用一元切分的结果就是“我”、“是”、“大”、“学”、“生”。二元分词如果采用串分割,结果就是“我是”、“大学”、“生”,采用交叉分割结果就是“我是”、“是大”、“大学”、“学生”。通常,都采用交叉切分,以免在搜索“学生”时无法搜索到结果。同时,交叉分割可以保证查询和索引切分的一致性。但交叉分割的索引大小是串分割的n倍。机械切分并不是真正意义上的中文分词,因为它并没有把句子根据词法和语义分成有意义的词。这种方法实现简单,切分效率高,但会产生很多无用词。Lucene自带的StandardAnalyzer对中文的切分就是一元切分。Lucene Sandbox中的CJKAnalyzer采用的是交叉二元分词。
      最长匹配法是使用词典来切分的。比如,“我是大学生”根据词典通常会被拆分为“我”、“是”、“大学生”。最长匹配法又分正向最长匹配和反向最长匹配,即从句子的正方向或方向匹配单词。通常反向最长匹配的效果要好于正向最长匹配。也可以把两者结合起来,即双向最长匹配。最长匹配法实现也较简单,分词速度较快,但准确率比较低。采用词典的分词方法的效果很大程度上取决于词典的质量。同时,在遇到词典中没有的词往往就束手无策了。而且,基于词典的分词对于新词,还有人名、地名等往往不能很好地识别。Lucene Sandbox中的ChineseAnalyzer就是采用的反向最长匹配。
      统计语言模型方法简单的说,就是通过从文本库中统计出字与字之间结合和分开的概率来分词的。比如“我是大学生”,“是”和“大”结合的概率要小于“大”和“学”结合的概率。这种方法不依赖于词库和语法定义,可以适应新词以及人名地名等。但实现复杂,分词速度慢。在上下文信息较少的情况下效果不够好。
  • Google Calender支持国内的短信提醒了

    【神仙】 2007-06-16 14:30

      Google Calender支持国内的短信提醒了。去试验了一下,已经可以发到我的手机上了。其实以前Google Calender就有短信提醒功能,可惜国内没有支持。现在这也算是本地化的一个进步吧。不知道能不能结合企业邮箱和群组使用。

      在设置里的移动设置页里可以填自己的手机号,如果能收到验证号就OK。在管理日历里可以设置通知的时间。

     

  • Safari for windows

    【神仙】 2007-06-12 10:54

      苹果的浏览器Safari3的beta出来了,这回支持windows了。下载回去试了一下,居然不支持中文显示………………

     

     

       本来以为可以又多一个选择,至少可以在windows上测试safari的效果。现在还是要先等等,至少等它解决了中文显示问题再说吧。

  • 说说trackback

    【神仙】 2007-06-10 21:06

      trackback是blog的一个重要功能,一个没有trackback的blog都不能算是一个完整意义上的blog。trackback的功能是,当你看到别人的文章,有一大堆话想说,可以放在自己的blog上写,同时也能够让对方知道。trackback使blog之间可以互通, 不过这个看起来不错的功能似乎用的人不太多(也可能是中国特色?)。或许是trackback用起来不太方便吧。要先找出对方的trackback地址,复制下来,然后加到自己日志的trackback里去。尤其是第一步,往往需要点好几下鼠标。那么有没有什么更好的办法呢?或者可以像rss feed自动发现那样,加入到日志页的meta段里去,这样不需要找trackback地址,只需要直接复制日志地址就可以,或者仿照emule,弄一个trackback://的协议,通过浏览器插件,点击这个地址就能自动跳到自己blog的后台。但是无论哪种方法,都需要有一个统一的标准,才能够真正实现,这个看上去就比较遥远了。那么现阶段,除了在一个BSP内部可以动一点手脚,把trackback弄得方便一点以外,似乎也只能如此了?

     

  • 筛法找质数之PHP版

    【神仙】 2007-06-08 09:34

    下面的程序会找出 1000000 以内的所有质数。

    define('MAX_NUM', 1000000);
    $all = array_fill(0,MAX_NUM,0);
    for ($i = 2; $i < MAX_NUM; $i++) {    
        if ($all[$i] == 0) {
            echo $i,"\n";  //测试性能时去掉这行。输出会占据大部分时间。
            for ($j = $i; $j < MAX_NUM; $j+=$i) {
                $all[$j] = 1;
            }
        }
    }

  • 毕业体检

    【神仙】 2007-06-05 13:14
    昨天毕业体检。
    结果发现,我居然变瘦了!!!原来是65kg,现在变成了61kg。少了8斤肉啊~~~
    还有就是,视力居然更好了。两个眼睛都是1.5了。后面一个兄弟说,读了4年大学,眼睛居然还那么好。心里暗暗得意一下。(其实大一的时候眼睛是生过一次病,还休学了半年……)
  • vim中文问题

    【神仙】 2007-06-01 15:35

    vim上经常会碰到中文显示不正常的现象,也就是传说中的乱码。搜索了一下,在
    http://www.chinalinuxpub.com/bbs/showthread.php?t=45475
    找到了一个解决办法。但是gbk编码的正常了,utf8的又不对了。于是稍微改了一点。

    用户目录下创建.vimrc文件
    加入
    set fileencodings=utf-8,gb2312,gbk,gb18030
    set termencoding=utf-8
    set fileformats=unix
    set encoding=prc
    fileencodings中utf-8要在前面。

    这样就能正常显示中文了。配合pietty,可以完全正常显示、编辑中文了。

  • 毕业论文ing

    【神仙】 2007-05-29 22:09

      传说六月初要交论文初稿。所以现在就在开始写。论文要2W字,另有传说要3W字。源代码不算字数。总之,这么多字怎么弄出来是件比较麻烦的事情。是不是要从古代说到现在,三皇五帝到而今呢?

      现在写了几千个字,任重而道远啊~~~。不多说了,继续写论文。

  • 廉颇老矣

    【神仙】 2007-05-26 23:18

      今天有百度Astar程序设计竞赛。也去凑了一把热闹。结果发现,
    年纪大了,不中用了啊~~~~ T_T

      看了一下4个题,觉得第2个最好做,就拿它下手。但是因为好久没碰C++了,一些东西的用法都要先google才知道怎么用。好久没做题了,这个不难的题也弄了n久。最后时刻好不容易搞对了,提交上去却是编译错误,说没有itoa。我这边是用的dev c++,怎么说也是g++啊,难道win上的g++和linux上的g++还不一样?不过我的那个程序效率也不是很高,就算这边对了,会不会TLE还不知道。

      BTW: 似乎百度的竞赛系统还可以,至少不像以前acm竞赛的时候经常提交都提交不上去。 

       反正就这样了。下面把这次的题目放上,有兴趣的可以看看。

      http://syre.blogbus.com/files/11801933250.txt

       又玩了一场。貌似第二场的比第一场的题简单点。这次提了一个题。然后发现,原来百度居然没有OJ的…………。前面关于百度系统的评价收回。

      放上第二场的题目:
      http://syre.blogbus.com/files/11802562440.txt

日历

个人资料

【神仙】

世人都晓神仙好~~~~