联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

HASH GAME - Online Skill Game ET 300Hash快速分词算法

发布时间:2025-08-17 21:23:30  点击量:

  HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300Hash快速分词算法

  中 文 文 本 在 计 算 机 内 部 表 示 时 ,不 像 英 文 中 词 与 词 之 间 都 有 空 格 隔 开 ,中 文 词 与 词 之 间 没 有 明 显 的 切 分 标 志 。 中 文 信息处理的诸多重要领域如信息检索、信息抽取、以及图书情 报关键词的建立,都需要对文本信息进行分词处理,因而自动 分 词 已 成 为 中 文 信 息 处 理 中 的 基 础 课 题 。无 论 哪 种 分 词 方 法 都 需 要 将 大 量 时 间 用 于 计 算 待 切 分 语 句 的 可 能 词 ,然 后 再 依 据 统 计 或 语 法 方 面 的 规 则 对 切 分 出 的 词 进 行 处 理 ,得 到 一 种 最 有 可 能 的 切 分 结 果 。 如 果 能 加 快 初 始 切 分 的 速 度 ,对 于 提 高整个分词算法的速度也会有很大帮助。文献[1]在首字 Hash 算法基础上提出的近邻匹配分词算法可以描述为首字 Hash 词次字的二分查找词剩余字的近邻匹配,较之单纯的首字 Hash 算法速度有了很大的提高;文献 [2] 提出首字 Hash全词 二 分 查 找 的 词 典 组 织 方 式 和 算 法 ,进 一 步 提 高 了 分 词 速 度 。 以 上 文 献 都 是 根 据 汉 字 机 内 码 的 编 码 规 律 ,通 过 一 对 一 映 射 的 Hash 函数实现词首字的快速查找。这样虽然实现了对词 首 字 的 快 速 访 问 ,但 对 于 词 第 二 个 及 以 后 的 字 最 快 的 只 能 通 过 二 分 搜 索 进 行 查 找 ,系 统 复 杂 度 仍 然 很 高 。 本 文 在 以 上 算 法的基础上,提出一种新的词典结构,不仅对首字进行 Hash

  摘 要:中文分词是 中文信息处理的 一个重要的组成 部分。一 些应用不仅要求 有较高的准确 率,速度也是至关 重要的。通过 对已 有分词算法的分 析,尤 其是对快速分 词算法的分析,提出了 一种新的词典结 构,并 根据新的词典结 构提出新的分 词算 法。该算法不 仅实现对词首字 的 Hash 查找,也实现了 词的其它字的 Hash 查找 。理论分 析和实验结果表 明,该算法在速 度上 优于现有的其它分词算法。 关键 词:中文分词; 中文信息处理; 哈希; 数据结构 ; 时间复杂度 中图 法分类号:TP391.1 文 献标识码:A 文章编号:1000-7024 (2007) 07-1716-03

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: