推荐序

自然语言处理(NLP)的目标是使计算机能够像人类一样理解语言。人类语言是一个复杂的符号系统,人们可以通过不同方式传达信息,比如文字、语音、手势、信号等,而所传达的信息也可能因为用词或语调的微妙不同而大相径庭。完全通过机器来理解人类语言目前还是一个很困难的任务。所幸的是近年来自然语言处理作为一门学科发展迅速,得到了越来越广泛的应用。在使用神经网络技术之前,NLP 的研究经历了从规则到统计的过程,而图像、语音、文本是信息记载的不同载体,这些正是深度学习(Deep Learning)的运用范围,目前深度学习在NLP 中也取得了很好的结果。

NLP 发展迅速,进入这个领域的初学者也越来越多。这个领域所需要的知识比较繁杂,掌握难度较大,因此,大家对于阅读相对轻松的入门资料是有很大需求的,而这在 NLP 领域是个缺口。

何晗所著的《自然语言处理入门》是汉语自然语言处理方面实用性很强的一本入门新书,涉及 NLP 的语言理论、算法介绍和工程实践等。书中着重介绍了中文自然语言处理的传统统计方法,也涉及最新发展的深度学习方法;此外,还分享了很多一线的工业级开发经验、工程实现和技巧。

特别值得一提的是,何晗开发了中文分词库 HanLP。在 GitHub 上,HanLP 全球用户量在2017 年 10 月就超过了斯坦福大学的 CoreNLP,以及老牌自然语言处理开发包 NLTK。目前, HanLP 的受欢迎程度持续增长,已经成为 GitHub Star 数最高的自然语言处理工具包。2019 年,在中国国际软件博览会上,HanLP 获得了优秀产品奖。

回到图书本身,可以说,这是第一本把读者阅读体验放在首位的中文 NLP 图书。著名物理学家霍金说,每增加一个公式,读者就少了一半。我猜何晗得到了霍金的“真传”。这本书的特点就是只允许必不可少的公式出现,采用从问题到算法再到工程实现的写作思路,通俗易懂、容易上手。何晗甚至设定了一个小目标:让大家在地铁上也能学会 NLP 开发。

最后,再次将这本优秀务实的中文 NLP 入门书分享给你。彻底搞懂本书后,你可以成长为自然语言处理类库的设计者。

夏志宏

首批长江学者,

美国“青年科学家与工程师总统奖”得主,布拉门塞尔纯数学奖得主,

南方科技大学数学系创系主任,美国西北大学终身讲席教授,

大快搜索首席数学家

目录

  • 推荐序
  • 推 荐 语
  • 前  言
  • 主要数学符号表
  • 第1章 新手上路
  • 第2章 词典分词
  • 第3章 二元语法与中文分词
  • 第4章 隐马尔可夫模型与序列标注
  • 第5章 感知机分类与序列标注 
  • 第6章 条件随机场与序列标注
  • 第7章 词性标注
  • 第8章 命名实体识别
  • 第9章 信息抽取 
  • 第10章 文本聚类
  • 第11章 文本分类
  • 第12章 依存句法分析
  • 第13章 深度学习与自然语言处理