自然语言处理(NLP)的目标是使计算机能够像人类一样理解语言。人类语言是一个复杂的符号系统,人们可以通过不同方式传达信息,比如文字、语音、手势、信号等,而所传达的信息也可能因为用词或语调的微妙不同而大相径庭。完全通过机器来理解人类语言目前还是一个很困难的任务。所幸的是近年来自然语言处理作为一门学科发展迅速,得到了越来越广泛的应用。在使用神经网络技术之前,NLP 的研究经历了从规则到统计的过程,而图像、语音、文本是信息记载的不同载体,这些正是深度学习(Deep Learning)的运用范围,目前深度学习在NLP 中也取得了很好的结果。
NLP 发展迅速,进入这个领域的初学者也越来越多。这个领域所需要的知识比较繁杂,掌握难度较大,因此,大家对于阅读相对轻松的入门资料是有很大需求的,而这在 NLP 领域是个缺口。
何晗所著的《自然语言处理入门》是汉语自然语言处理方面实用性很强的一本入门新书,涉及 NLP 的语言理论、算法介绍和工程实践等。书中着重介绍了中文自然语言处理的传统统计方法,也涉及最新发展的深度学习方法;此外,还分享了很多一线的工业级开发经验、工程实现和技巧。
特别值得一提的是,何晗开发了中文分词库 HanLP。在 GitHub 上,HanLP 全球用户量在2017 年 10 月就超过了斯坦福大学的 CoreNLP,以及老牌自然语言处理开发包 NLTK。目前, HanLP 的受欢迎程度持续增长,已经成为 GitHub Star 数最高的自然语言处理工具包。2019 年,在中国国际软件博览会上,HanLP 获得了优秀产品奖。
回到图书本身,可以说,这是第一本把读者阅读体验放在首位的中文 NLP 图书。著名物理学家霍金说,每增加一个公式,读者就少了一半。我猜何晗得到了霍金的“真传”。这本书的特点就是只允许必不可少的公式出现,采用从问题到算法再到工程实现的写作思路,通俗易懂、容易上手。何晗甚至设定了一个小目标:让大家在地铁上也能学会 NLP 开发。
最后,再次将这本优秀务实的中文 NLP 入门书分享给你。彻底搞懂本书后,你可以成长为自然语言处理类库的设计者。
夏志宏
首批长江学者,
美国“青年科学家与工程师总统奖”得主,布拉门塞尔纯数学奖得主,
南方科技大学数学系创系主任,美国西北大学终身讲席教授,
大快搜索首席数学家