分析PHP的similar_text函數

//比較字串,返回兩個字串第一個相同字符的區域

static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)

{

char *p, *q;

char *end1 = (char *) txt1 + len1;

char *end2 = (char *) txt2 + len2;

int l;

*max = 0;

//遍曆字串

for (p = (char *) txt1; p < end1; p++) {

for (q = (char *) txt2; q < end2; q++) {

for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);

if (l > *max) {

//保存相同區域信息

*max = l;

*pos1 = p - txt1;

*pos2 = q - txt2;

}

}

}

}

//遞歸函數,比較txt1和txt2的相同字符數量

static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)

{

int sum;

int pos1, pos2, max;

php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);

if ((sum = max)) {//這樣寫有什麽意義?????!!!!!

//遞歸上次不同部分的前部

if (pos1 && pos2) {

sum += php_similar_char(txt1, pos1, txt2, pos2);

}

//遞歸上次不同部分的後部

if ((pos1 + max < len1) && (pos2 + max < len2)) {

sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,

txt2 + pos2 + max, len2 - pos2 - max);

}

}

//返回本次比較後的相同字符數量

return sum;

}

//PHP函數本身,一堆宏,做了些串轉換和返回值換算,主功能由上面兩個函數做了。

PHP_FUNCTION(similar_text)

{

zval **t1, **t2, **percent;

int ac = ZEND_NUM_ARGS();

int sim;

if (ac < 2 || ac > 3 || zend_get_parameters_ex(ac, &t1, &t2, &percent) == FAILURE) {

WRONG_PARAM_COUNT;

}

convert_to_string_ex(t1);

convert_to_string_ex(t2);

if (ac > 2) {

convert_to_double_ex(percent);

}

if (Z_STRLEN_PP(t1) + Z_STRLEN_PP(t2) == 0) {

if (ac > 2) {

Z_DVAL_PP(percent) = 0;

}

RETURN_LONG(0);

}

sim = php_similar_char(Z_STRVAL_PP(t1), Z_STRLEN_PP(t1), Z_STRVAL_PP(t2), Z_STRLEN_PP(t2));

if (ac > 2) {

Z_DVAL_PP(percent) = sim * 200.0 / (Z_STRLEN_PP(t1) + Z_STRLEN_PP(t2));

}

RETURN_LONG(sim);

}

所有看出similar_text是根據ASCII做比較的,是不考慮詞組問題的。

測試了一下,結果如下:

int main(int argc, char *argv[])

{

char *str1="weican wuxin";

char *str2="wuxin weican";

int pos1,pos2,max;

php_similar_str(str1,strlen(str1),str2,strlen(str2),&pos1,&pos2,&max);

printf("php_similar_str:%d,%d=%d\n",pos1,pos2,max);

max=php_similar_char(str1,strlen(str1),str2,strlen(str2));

printf("php_similar_char:%d\n",max);

system("PAUSE");

return 0;

}

php_similar_str:0,6=6

php_similar_char:6

char *str1="TCP協議通訊工作原a理";

char *str2="TCPa協議通訊工作原理";

php_similar_str:3,4=14

php_similar_char:19

PHP的正則處理函數總結分析
下面整理了php中正則的常用函數代碼,方便大家學習php正則preg_grep(PHP 4, PHP 5)preg_grep -- 返回與模式匹配的數組單元說明array preg_grep ( string pattern, array input [, int flags] )preg_grep() 返回一個數...查看完整版>>PHP的正則處理函數總結分析
 
php的xml分析函數
首先我得承認我喜歡計算機標准。如果每個人都遵從這個行業的標准,互聯網將會是一個更好的媒體。使用標准化的數據交換格式才能使開放的和獨立于平台的計算模式切實可行。這就是我作爲XML愛好者的原因。 幸運的是,我...查看完整版>>php的xml分析函數
 
PHP的XML分析函數
首先我得承認我喜歡計算機標准。如果每個人都遵從這個行業的標准,互聯網將會是一個更好的媒體。使用標准化的數據交換格式才能使開放的和獨立于平台的計算模式切實可行。這就是我作爲XML愛好者的原因。 幸運的是,我...查看完整版>>PHP的XML分析函數
 
PHP中的sprintf()函數的學習研究筆記
sprintf將字串格式化。語法: string sprintf(string format, mixed ...);傳回值: 字串函式種類: 資料處理內容說明 本函式用來將字串格式化。參數 format 是轉換的格式,以百分比符號 % 開始到轉換字符爲止。而在轉換...查看完整版>>PHP中的sprintf()函數的學習研究筆記
 
使用PHP中的日期和時間函數
(1)date 用法: date(格式,[時間]); 如果沒有時間參數,則使用當前時間. 格式是一個字符串,其中以下字符有特殊意義: U 替換成從一個起始時間(好象是1970年1月1日)以來的秒數 Y 替換成4位的年號. y 替換成2位的年號. F ...查看完整版>>使用PHP中的日期和時間函數
 
PHP中常用的函數庫和一些小技巧
文件讀取函式 //文件讀取函式 function PHP_Read($file_name) { $fd=fopen($file_name,r); while($bufline=fgets($fd, 4096)){ $buf.=$bufline; } fclose($fd); return $buf; } ?>文件寫入...查看完整版>>PHP中常用的函數庫和一些小技巧
 
一些使用頻率比較高的PHP函數
在php開發中,我們經常會遇到一些函數,下面是整理好的,可以直接使用,方便開發效率,不過建議大家一定要先看懂,然後在這個基礎上增加功能就提高了自身能力了1.産生隨機字符串函數function random($length) {$hash...查看完整版>>一些使用頻率比較高的PHP函數
 
PHP與MYSQL交互函數表學習筆記
最近一直在研究PHP與MYSQL,感覺PHP與MYSQL交互的函數都是過程化的,當然也有mysqli擴展,面向對象,Java和C#寫多了之後,再寫PHP,有些不適應,感覺又回到了學C的年代。今天學習了一些函數,記錄下來,以便日後忘記...查看完整版>>PHP與MYSQL交互函數表學習筆記
 
用php實現把漢字轉化爲拼音的一個函數
     很多問題都是因爲中文問題造成的  如文件名最好別用中文  現在的解決方法一般是産生一個ID,將這個ID做文件名  網頁上如果url帶漢字也經常出錯  現在的解決方法一般用urlencode編碼  現在用了這個...查看完整版>>用php實現把漢字轉化爲拼音的一個函數
 
 
回到王朝網路移動版首頁