漢字 文本 的 詞 與 分詞 連寫 問題
中文 具有 不 實行 分詞 連寫 的 傳統。這 說明,在 通常 情況 下,中文 具有 不 分詞 連寫 也 不會 妨礙 書面 交流 的 能力。但 這 并不是 絕對的,中文 中 詞 的 界線 有時 確實 因為 沒有 分詞 連寫 而 顯得 有些 模糊,甚至 會 造成 誤解。
中文 為什么 可以 不 分詞 連寫 呢?我 認為,這 是 由于 漢字的 字符 集 很 大,就算 常用的 國標 一 級 漢字 也有 3008 個。而 日常 常用的 詞 也就是 那么 五、六 千 個,因此 字 與 字 之間 可能 形成 詞 的 組合 的 可能性 很 小,因而 詞 在 漢字 文本 中 比較 容易 被 人 篩選 出來,從而 一般 不會 影響 人們 對 文本 的 理解。 例如 下面 這個 句子:
為實現中國的語文現代化而奮斗!
人們 會 毫不費力地 把 它 理解 為:
為 實現 中國 的 語文 現代化 而 奮斗!
而 不 會 把 它 理解 為:
為實 現中 國的語 文現 代化而奮 斗!
但是,讓 我們 再來 看一看 Philip Zhang[1] 常常 舉 的 一 個 例子:
韓廷頓首先到臺灣國中學作報告。
你 會 怎樣 理解 這 個 句子 呢?如果 沒有 詞 連寫 和 間隔 的 功能 存在,這 個 句子 可以 有 多 種 讀法:
韓廷 頓首 先 到 臺灣國 中學 作 報告。
韓廷 頓首 先 到 臺灣 國中 學 作報告。
韓廷頓 首先 到 臺灣國 中學 作 報告。
韓廷頓 首先 到 臺灣 國中 學 作報告。
從 語法 上 來說,這些 句子 都 是 正確的!為什么 會 這樣 呢?這里 所 發生 的 就是 因 中文 不 實行 分詞 連寫 而 造成 的 詞 界線 模糊 和 歧義 現象。當然,這 種 現象 在 日常 文字 生活 中 并不 十分 常見。
如果 對于 我們 人類 來說,中文 是不是 分詞 連寫 都 關系 不大 的話,然而 對于 計算機 理解 自然 語言 來說 這種 區別 就 非常 大 了。
我們的 計算機 專家 費了 九牛二虎 之 力,絞盡腦汁,都 還是 不 能 讓 計算機 令人滿意地 為 漢字 文本 做 自動 分詞。他們 動用了 巨型的 詞庫,想出了 種種 人工 智能 方法,結果 還是 令 他們 難堪。我 不 知道 為什么 中國人 會 如此 “冷酷”地 對待 計算機,如此 “濫用” 我們的 計算機 專家,竟然 拿 我們 人類 之 所長 來 “虐待” 計算機。因為 畢竟,分詞 對于 我們 來說 簡直 是 小事 一 樁,順手 加 一 個 空格 的 事,而 對于 一般的 計算機 來說 卻 會 耗盡 它的 內存(巨型 詞庫),讓 它 左右 為難(歧義 現象)。如果 計算機 有 靈,它 會 讓 我們 算算 這 道 題:23223432534534345。“還 沒有 算出來 呀,你們 真苯!”,計算機 會 說。
馮 志偉 教授[2] 在 《絕妙的 空格》 一 文 中 “舉 雙 手 贊成” 米阿侖 關于 在 中文 中 用 空格 進行 分詞 的 建議。這 就是 針對 中文 的 計算機 處理 而 言 的。
綜上所述,對于 漢字 文本 是否 需要 進行 分詞 連寫 的 問題,是不是 可以 這樣 認為: 如果 我們 不 需要 計算機 處理 漢字 文本 則 我們 沒有 太 大的 必要 進行 分詞 連寫,反之 我們 則 需要 進行 分詞 連寫。然而,應用 計算機 是 大勢所趨,所以 我們 還是 分詞 連寫 明智 一些。多 敲 一 下 鍵盤,多 用 一 點 紙張,所 換來 的 是 “解放” 我們 寶貴的 計算機 資源,“解放” 我們 更加 寶貴的 計算機 專家,還 可 讓 人們 養成 分詞 的 習慣, 養成 清楚地 表達 自己的 思想 的 習慣,也 可 我們 最終 實現 漢語 拼音化 做 準備,真是 何樂 而 不為 呢?
漢拼文 的 分詞 連寫 問題(待寫)
注:
[1] Philip Zhang,“一不是一”,《語文與信息》第十期(1998年12月)
[2] 馮志偉,“絕妙的空格”,《語文與信息》第十五期(2000年5月)
[詞與分詞連寫]相關文章:
1.小品反義詞的串詞
6.內疚近義詞反義詞
7.輕蔑詞語的近義詞
8.義正詞嚴反義詞
9.春晚主持詞開場詞
10.傲慢反義詞近義詞