自然语言处理综论
[点击查看大图]
4.8分 网友口碑 (8人参与评分)
从下面 6 家网店中选购 返回首页
商品信息商家优惠价格(从低到高)去商家购买
自然语言处理综论
互动
京高校免运费其它满48元免
校园特惠价 ¥55.2元
(互动价)
国外计算机科学教材系列:自然语言处理综论
京东
全场免送费京东手机促销
火热进行中 ¥58.5元
(京东价)
自然语言处理综论——国外计算机科学教材系列
当当
满29免运费当当十万种
教材整装待发 ¥58.5元
(当当价)
自然语言处理综论/国外计算机科学教材系列
卓越
全场免送费畅销好书秒杀
少儿图书全场
58折封顶 ¥61.6元
(卓越价)
自然语言处理综论
蔚蓝
京高校免运费市区满48元免
全国满88元免¥62.4元
(蔚蓝1星会员价)
自然语言处理综论/国外计算机科学教材系列
博库书城
满100送50全场免送费 ¥66.3元
(博库价)
自然语言处理综论
互动
京高校免运费其它满48元免
校园特惠价 ¥70.2元
(互动价)
相关书籍
·基于词联接的自然语言处理技术及其应用研究 ¥15李良炎学林出版社
·计算机自然语言处理(信号与信息处理丛书) ¥23王晓龙 关毅清华大学出版社
·句式语义的形式分析与计算 ¥35吴平北京语言文化
·中文信息处理现代汉语词汇研究 ¥68许嘉璐,傅永和 主编广东教育出版社
·中文文本信息处理的原理与应用(重点大学计算机专业系列教材) ¥29苗夺谦,卫志华 编著清华大学出版社
·支持向量机导论 ¥25(美)Nello Cristianini,John Shawe-Taylor电子工业出版社
·数据挖掘概念与技术(原书第2版)(计算机科学丛书) ¥55(加)韩家炜,堪博 著,范明,孟小峰 译机械工业出版社
·算法导论(原书第2版) ¥85(美)Thomas H.Cormen, Charles E.Leiserson 等机械工业出版社
·德川家康4:兵变本能寺 ¥26(日)山冈庄八南海出版公司
·德川家康3:天下布武 ¥26(日)山冈庄八南海出版公司
目录(互动)
第1章 导论
1.1 语音与语言处理中的知识
1.2 歧义
1.3 模型和算法
1.4 语言、思维和理解
1.5 学科现状与近期发展
1.6 语音和语言处理简史
1.6.1 基础研究:20世纪40年代和20世纪50年代
1.6.2 两个阵营:1957年至1970年
1.6.3 四个范型:1970年至1983年
1.6.4 经验主义和有限状态模型的复苏:1983年至1993年
1.6.5 不同领域的合流:1994年至1999年
1.6.6 多重发现
1.6.7 心理学的简要注记
1.7 小结
1.8 文献和历史说明
第一部分 词汇的计算机处理
第2章 正则表达式与自动机
2.1 正则表达式
2.1.1 基本正则表达式模式
<< 查看详细目录
内容提要(2688)
内容简介目录
本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的"黄金标准"。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有"覆盖全面、注重实用、强调评测、语料为本"四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。
本书不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,而且也是从事自然语言处理相关领域的研究人员和技术人员的必备参考。
作译者简介
Daniel Jurafsky
在美国加利福尼亚大学获计算机科学博士学位, 现于美国科罗拉多大学语言学系和计算机科学系任教, 并在认知科学研究所工作, 主要研究方向为语言的概率模型和语音信息处理. 由于他在语音和语言处理方面的成就, 于1997年获美国NSF职业奖.
James H.Martin
在美国加利福尼亚大学获计算机科学博士学位, 现任职于美国科罗拉多大学计算机科学系和认知科学研究所, 主要研究方向为计算语义学. 机器学习和信息检索.
冯志伟国家教育部语言文字应用研究所研究员. 博士生导师. 先后在北京大学和中国科学技术大学获双硕士位, 在语音和语言的计算机处理领域具有多年的研究经验, 曾在多个国家参与研究和教学工作, 主要研究方向为自然语言处理. 计算语言学和机器翻译, 主要著作有《自然语言的计算机处理》和《数理语言学》等18部.
前言
现在, 语音和语言的计算机处理进入了一个令人振奋的时期. 在这个时期, 历史上彼此不同的研究部门(自然语言处理. 语音识别. 计算语言学. 计算心理语言学)开始融合在一起. 语音识别研究的商品化以及对于基于互联网的语言处理技术的需求, 有力地推动了各种实用的自然语言处理系统的开发. 由于使用大规模的联机语料库, 使得在从语音到话语的各个不同的层面都可以使用统计方法. 我们在设计这本既可作为教学之用又可作为参考书之用的专著时, 试图描绘出各个不同学科开始融合在一起的这种情景. 本书具有如下的特点:
1. 覆盖全面 为了统一地描述语音处理和语言处理, 本书涵盖了传统上分别在不同的系和不同课程中讲授的内容. 例如, 在电子工程系的语音识别课程中的内容, 在计算机科学系的自然语言处理课程中的自动句法分析. 语义解释. 语用学等内容, 在语言学系的计算语言学课程中的计算形态学和计算音系学等内容. 本书介绍了这些领域中的基本算法, 无论这些算法原来是在语音处理还是在语言处理中提出的, 无论它们原来是从逻辑的角度还是从统计的角度提出的, 我们力求将来自不同领域的算法合在一起统一描述. 我们也试图把一些诸如拼写检查. 信息检索和信息抽取这样的应用领域的内容包括在本书中, 使其覆盖得更全面. 这种广为覆盖的方法的一个潜在问题是, 我们只好把每个领域中的一些概论性的材料也包括到本书中. 因此, 在阅读本书时, 语言学家可以跳过有关发音语音学方面的章节, 计算机科学家可以跳过有关正则表达式的章节, 电子工程师可以跳过有关信号处理的章节. 当然, 尽管这本书写得这样长, 我们也不可能做到包罗万象. 正因为如此, 本书不能替代语言学. 自动机和形式语言理论, 特别是关于统计学和信息论的各种专门著作, 这些著作显然是非常重要的.
2. 注重实用 理论联系实际是非常重要的. 在本书中, 我们始终注意把自然语言处理的算法和技术(从隐马尔可夫模型到合一算法, 从丸运算到基于转换的学习)应用于解决现实世界中遇到的各种重要问题, 例如拼写检查. 文本文献检索. 语音识别. 网页信息处理. 词类标注. 机器翻译. 口语对话代理等. 为了达到这样的目的, 我们在每一章中都要讲授一些关于自然语言处理的应用问题. 这种方法的好处是, 当介绍有关自然语言处理的知识时, 可以给学生们提供一个背景来理解和模拟特定领域中的应用问题.
3. 强调评测 近年来, 在自然语言处理中统计算法越来越受到重视, 语音处理和语言处理的有组织的评测系统越来越多, 这些都使得评测得到了越来越多的强调和重视. 因此, 我们在本书中许多领域设立了"方法论探讨"(MethodologyBox), 具体讲述怎样评测一个系统. 例如, 我们介绍了训练集和测试集的概念, 交叉确认(cross-validation)以及诸如困惑度(perplexity)这样的信息论评测指标.
4. 语料为本 现代的语音处理和语言处理很多是建立在公共资源的基础上的. 这些资源包括语音生语料库和文本生语料库, 标注语料库和树库, 用于语音标记. 词类标记. 自动句法分析. 词义以及对话层面的现象的标准标注集等. 我们力图在全书中介绍很多这样的重要语言资源(例如, Brown, Switchboard, callhome, ATIS, TREC, MUC, BNC等语料库), 并且提供很多有用的标记集的完整清单以及编码技巧(例如PennTreebank, CLAWSC5和C7, 以及ARPAbet), 不过难免会有遗漏. 此外, 除了在本书中直接包括了很多资源的URL(UniformResource Locator)之外, 我们还把这些资源放在本书的网站上, 这样即可使这些得到及时的更新.
本书首先可以用做研究生或高年级本科生的教材或系列教材. 由于本书的覆盖面广, 并且有大量的算法, 所以, 本书也可以用做语音处理和语言处理的各个领域中的大学生和专业人员的参考书.
本书概览
除了前言和书后面的附录之外, 本书共分为四个部分. 第一部分是"词汇的计算机处理", 讲述与词汇的计算机处理有关的语音学. 音系学. 形态学的基本概念, 介绍语音和词汇计算机处理中的各种算法, 如有限自动机. 有限转录机. 加权转录机. N元模型. 隐马尔可夫模型等. 第二部分是"句法的计算机处理", 介绍英语的词类和短语的结构语法, 讲述用于词类处理和结构处理的一些主要的算法, 如基于HMM的词类标注. 基于转换的学习. CYK分析算法. Earley分析算法. 合一与类型特征结构. 词汇化剖析和概率剖析以及诸如Chomsky层级分类和抽吸引理(pumpinglemma)等分析工具. 第三部分是"语义的计算机处理", 介绍一阶谓词演算以及语义的各种表示方法, 组合语义分析的各种方法. 信息抽取. 言语理解和机器翻译. 第四部分是"语用的计算机处理", 讲述所指判定(reference resolution). 话语的结构和连贯性. 口语对话的现象. 对话和言语行为模式. 对话管理以及机器翻译和自然语言生成中的各种处理方法.
本书使用方法
本书材料丰富, 可作为两学期的语音处理和语言处理系列教材. 本书也可以作为各种不同用途的一个学期的教材使用.
本书的某些章节也可以选用于人工智能. 认知科学或者信息检索等课程.
序言
The goal of a textbook author is the same as the goal of any teacher: passing on our love for our field to a new generation of students, encouraging them to do innovative and creative new work, and helping them to advance the state of human knowledge. For a textbook in the interdisciplinary area of speech and language processing, there are the additional goals of enabling students from differing backgrounds (computer science, linguistics, electrical engineering) to acquire the knowledge and tools of the new interdisciplinary field, and to develop an appreciation for the beauty and complexity and variety of human language. We therefore feel extremely lucky that Feng Zhiwei Laoshi, aided by Dr. Sun Le, undertook the arduous job of translating this book. Feng Laoshi is the perfect scholar for the job of translating such a book, because of his long experience in our field, his wide breadth of research interests throughout computational linguistics in general and Chinese computational linguistics specifically, his remarkable familiarity with the state of our field across the world, from China to France, from Korea to Germany, and of course his expertise on translation as a research area! We are also very excited that this translation into Chinese is the first translation of our book out of English. China‘s long history of the study of language is of course well known, and in this new century the young scientists of China are already playing a key role in the important scientific advances of our field. We look forward to even more amazing contributions from China and hope that our small book, now with the help of Feng Laoshi and Dr. Sun, can provide a small aide in the great role that Chinese scientists are playing on the world scientific stage!
Daniel Jurafsky and James H. Martin
Palo Alto, California, and Boulder, Colorado
教材的作者与所有教师有着相同的目标, 即把我们对于本专业的热爱传达给新一代的学生, 鼓励他们进行创新性的研究和探索, 帮助他们把人类知识进一步向前推进. 由于语音和语言的计算机处理属于交叉学科的领域, 所以这本关于该交叉学科领域的教材还有其特定的目标. 这些特定的目标就是使来自不同知识背景(计算机科学. 语言学和电子工程)的学生掌握这门新的交叉学科的基本知识和工具, 并在学习过程中循序渐进地感受人类语言的美妙性. 复杂性和多样性. 因此, 当了解到冯志伟老师在孙乐博士的协助下承担了把这本教材翻译成中文的艰辛工作时, 我们感到无比荣幸. 我们认为, 冯志伟老师是翻译这本教材的最理想的学者, 因为他在这个专业领域具有多年的经验, 他的研究兴趣涉及面广, 既包括普通的计算语言学研究, 也包括具体的汉语计算语言学的研究, 他对于这个学科在全世界的情况了如指掌, 从中国到法国, 从韩国到德国, 他都亲身参与了这些国家的计算语言学研究工作, 并且, 翻译一直是冯老师长期从事的一个研究领域, 他当然也是精研通达的翻译内行!这个中译本是英文原著的第一个外文译本, 它的出版使我们非常激动和振奋. 众所周知, 中国在语言研究方面有着悠久的历史, 在21世纪, 中国年轻一代的科学工作者在这个领域的一些重要科学进展方面已经起着关键性的作用. 我们期待着中国在这个领域里进一步做出更加出色的贡献. 我们也希望, 在中国科学工作者为全世界的科学进步事业所发挥的巨大作用中, 由于冯老师和孙乐博士的帮助, 拙著也能够为此尽我们的绵薄之力!
第1章 导论
1.1 语音与语言处理中的知识
1.2 歧义
1.3 模型和算法
1.4 语言. 思维和理解
1.5 学科现状与近期发展
1.6 语音和语言处理简史
1.6.1 基础研究:20世纪40年代和20世纪50年代
1.6.2 两个阵营:1957年至1970年
1.6.3 四个范型:1970年至1983年
1.6.4 经验主义和有限状态模型的复苏:1983年至1993年
1.6.5 不同领域的合流:1994年至1999年
1.6.6 多重发现
1.6.7 心理学的简要注记
1.7 小结
1.8 文献和历史说明
第一部分 词汇的计算机处理
第2章 正则表达式与自动机
2.1 正则表达式
2.1.1 基本正则表达式模式
2.1.2 析取. 组合与优先关系
2.1.3 一个简单的例子
2.1.4 一个比较复杂的例子
2.1.5 高级算符
2.1.6 正则表达式中的替换. 存储器与ELIZA
2.2 有限状态自动机
2.2.1 用FSA来识别羊的语言
2.2.2 形式语言
2.2.3 另外的例子
2.2.4 非确定FSA
2.2.5 使用NFSA接收符号串
2.2.6 识别就是搜索
2.2.7 确定自动机与非确定自动机的关系
2.3 正则语言与FSA
2.4 小结
2.5 文献和历史说明
第3章 形态学与有限状态转录机
3.1 英语形态学概观
3.1.1 屈折形态学
3.1.2 派生形态学
3.2 有限状态形态剖析
3.2.1 词表和形态顺序规则
3.2.2 用有限状态转录机进行形态剖析
3.2.3 正词法规则和有限状态转录机
3.3 把FST词表与规则相结合
3.4 与词表无关的FST:PORTER词干处理器
3.5 人是怎样进行形态处理的
3.6 小结
3.7 文献和历史说明
第4章 计算音系学与文本-语音转换
4.1 言语语音与语音标音法
4.1.1 发音器官
4.1.2 辅音:发音部位
4.1.3 辅音:发音方法
4.1.4 元音
4.1.5 音节
4.2 音位和音位规则
4.3 音位规则和转录机
4.4 计算音系学中的一些高级问题
4.4.1 元音和谐
4.4.2 模板式形态学
4.4.3 优选理论
4.5 音位规则的机器学习
4.6 TTS中从文本映射到语音
4.6.1 发音词典
4.6.2 词典之外的查找:文本分析
4.6.3 基于有限状态转录机(FST)的发音词典
4.7 文本-语音转换中的韵律
4.7.1 韵律的音系学性质
4.7.2 韵律的语音和声学性质
4.7.3 语音合成中的韵律
4.8 人处理音位和形态的过程
4.9 小结
4.10 文献和历史说明