• ----:)欢迎访问源码网(:----
    • 首页
    • 博客
    • 学院
    • 下载
    • 论坛
    • 影视
    • 发布源码
    • RSS
    • ITPig
    • 笑话网
    • 百家姓
    • 繁體中文

源码网 - 中国第一源码门户
选择镜像:网通镜像 - 电信主站
  • 首 页
  • 新闻动态
  • 网站运营
  • 网页制作
  • WEB开发
  • 编程开发
  • 图像媒体
  • 操作系统
  • 数据库
  • 服务器
热门搜索 优化 SEO 故事 cms IIS7 MySQL 个人 AdSense 主题推广 | 文章搜索: 高级搜索
会员登录/控制面版您的位置: 学院首页 >> WEB开发 >> PHP 开发 >> PHP入门 >> 详细内容
 

推荐文章

  • 谈谈新手如何学习PHP
  • PHP脚本的8个技巧
 
 

热点文章

  • PHP中的cookie
  • 谈谈新手如何学习PHP
  • PHP脚本的8个技巧
  • 二元分词函数的分析
  • PHP5学习笔记 -- Classes and Objects in PHP5
  • ascii码及扩展码
  • php调用MSSQL存储过程
  • php中Cookie的设置与使用
  • php新手入门(经验谈)
  • PHP编辑器
  • fgets函数
  • 如何用PHP做到即时简繁切换
 
 

相关文章

 
 

百度搜索

 
 

二元分词函数的分析

  • 阅览次数:
  • 文章来源: CP整理
  • 原文作者: monkeye
  • 整理日期: 2007-02-08
  • 发表评论
  • 字体大小:
  • 小
  • 中
  • 大

<?
//Monkey's 二元分词
function sp_str($str) {
//所有汉字后添加ASCII的0字符,此法是为了排除特殊中文拆分错误的问题
$str=preg_replace("/[\x80-\xff]{2}/","\\0".chr(0x00),$str);
//拆分的分割符
$search = array(",", "/", "\\", ".", ";", ":", "\"", "!", "~", "`", "^", "(", ")", "?", "-", "\t", "\n", "'", "<", ">", "\r", "\r\n", "$", "&", "%", "#", "@", "+", "=", "{", "}", "[", "]", ":", ")", "(", ".", "。", ",", "!", ";", "“", "”", "‘", "’", "[", "]", "、", "—", " ", "《", "》", "-", "…", "【", "】",);
//替换所有的分割符为空格
$str = str_replace($search,' ',$str);
//用正则匹配半角单个字符或者全角单个字符,存入数组$ar
preg_match_all("/[\x80-\xff]?./",$str,$ar);$ar=$ar[0];
//去掉$ar中ASCII为0字符的项目
for ($i=0;$i<count($ar);$i++) if ($ar[$i]!=chr(0x00)) $ar_new[]=$ar[$i];
$ar=$ar_new;unset($ar_new);$oldsw=0;
/*
$ar = Array
(
     [0] => M
     [1] => o
     [2] => n
     [3] => k
     [4] => e
     [5] => y
     [6] =>
     [7] => s
     [8] =>
     [9] => 二
     [10] => 元
     [11] => 分
     [12] => 词
)
*/
//把连续的半角存成一个数组下标,或者全角的每2个字符存成一个数组的下标
for ($ar_str='',$i=0;$i<count($ar);$i++) {
    $sw=strlen($ar[$i]);
    if ($i>0 and $sw!=$oldsw) $ar_str.=" ";
     if ($sw==1) $ar_str.=$ar[$i];
    else
     if (strlen($ar[$i+1])==2) $ar_str.=$ar[$i].$ar[$i+1].' ';
     elseif ($oldsw==1 or $oldsw==0) $ar_str.=$ar[$i];
    $oldsw=$sw;
}
//去掉连续的空格
$ar_str=trim(preg_replace("# {1,}#i"," ",$ar_str));//$ar_str = "Monkey s 二元 元分 分词"
//返回拆分后的结果
return explode(' ',$ar_str);
}

print_r(sp_str("Monkey's 二元分词"));

/*
Array
(
    [0] => Monkey
    [1] => s
    [2] => 二元
    [3] => 元分
    [4] => 分词
)
*/

[1] [2]

上一篇:ASP抽取数据的执行效率
下一篇:比AcdSee功能还强大的图片处理、编辑软件,推荐下载!
  • 网友评论:
  • 查看所有评论
  • 我要发表评论
您的网名:
留言主题:
你要发表的内容:

 

关于本站 | 广告联系 | 版权声明 | 网站地图 | 发布软件 | 帮助中心 | 源码论坛

Copyright © 2005-2007 CodePub.Com  程序支持:木翼  滇ICP备05005971号