编者按:本文来自大数据DT(ID:hzdashuju),作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka)、舒班吉·霍拉(Shubhangi Hora)、塔努吉·贾因(Tanuj Jain)、莫尼卡·瓦姆布吉(Monicah Wambugu),创业邦经授权转载。
01 自然语言处理的基础知识
为了便于理解,我们将这个术语分为两部分:
自然语言是一种有机且自然发展而来的书面和口头交流形式。
处理意味着使用计算机分析和理解输入数据。
如图1-1所示,自然语言处理是人类语言的机器处理,旨在教授机器如何处理和理解人类的语言,从而在人与机器之间建立一个简单的沟通渠道。
▲图1-1 自然语言处理
自然语言处理的应用很广泛,例如,在我们的手机和智能音箱中的个人语音助手,如Alexa和Siri。它们不仅能够理解我们的说话内容,而且能够根据我们说的话采取行动,并做出反馈。自然语言处理算法促进了这种与人类沟通的技术。
在上述自然语言处理定义中要考虑的关键是:沟通需要以人类的自然语言进行。几十年来,我们一直在与机器沟通:创建程序来执行某些任务并执行。
然而,这些程序是用非自然语言编写的,因为它们不是口头交流的形式,也不是自然或有机发展而来的。这些语言,例如Java、Python、C和C ++,都是在主要考虑机器的情况下创建的,并且始终考虑的是“机器能够轻松理解和处理的是什么?”
虽然Python是一种对用户更加友好的语言,且易于学习和编码,但与机器沟通,人类必须学习机器能够理解的语言。自然语言处理、机器学习、深度学习的关系如图1-2所示。
▲图1-2 自然语言处理的维恩图
自然语言处理的目的与此相反。自然语言处理不是以人类顺应机器的方式学习如何有效地与它们沟通,而是使机器能够与人类保持一致,并学习人类的交流方式。其意义更为重大,因为技术的目的本来就是让我们的生活更为轻松。
我们用一个例子来澄清这一点,你的第一个程序是一段让机器打印“hello world”代码。这是你顺应机器并要求它用其理解的语言执行任务。
通过向其发出这个命令来要求你的语音助手说“hello world”,并做出“hello world”的反馈,就是自然语言处理应用的一个例子,因为你用自然语言与机器通信。机器符合你的沟通形式,理解你所说的内容,处理你要求它执行的操作,然后执行任务。
02 自然语言处理的重要性
图1-3说明了人工智能领域的各个部分。
▲图1-3 人工智能及其一些子领域
与机器学习和深度学习一样,自然语言处理是人工智能的一个分支,因为其处理自然语言,所以它实际上是人工智能和语言学的交叉。
如上所述,自然语言处理使机器能够理解人类的语言,从而在两者之间建立有效的沟通渠道。然而,自然语言处理的必要性还有另一个原因。那就是,像机器一样,机器学习模型和深度学习模型对数值数据最有效。数值数据对人类来说很难自然产生。很难想象我们用数字而不是语言交谈。
因此,自然语言处理与文本数据一起工作,并将其转换成数值数据,从而使机器学习模型和深度学习模型能够适用于文本数据。因此,它的存在是为了通过从人类那里获取语言的口头和书面形式,并将它们转换成机器能够理解的数据,来弥合人类和机器之间的交流差距。
得益于自然语言处理,机器能够理解并回答基于自然语言的问题、解决使用自然语言的问题以及用自然语言交流等。
03 自然语言处理的能力
自然语言处理有许多有益于人类生活的现实应用。这些应用程序属于自然语言处理的三大功能:
1. 语音识别
机器能够识别自然语言的口语形式,并将其翻译成文本形式。比如智能手机上的听写,你可以启用听写功能并对着手机说话,它会将你所说的一切转换成文本。
2. 自然语言理解
机器能够理解自然语言的口语和书面语。如果给机器一个命令,它就能理解并执行。例如,在你的手机上对Siri说“嘿,Siri,打电话回家”,Siri就会自动为你打电话回家。
3. 自然语言生成
机器能够自己生成自然语言。例如,在手机上对Siri说“Siri,现在几点了?”Siri回复说:“现在是下午2:08”。
这三种能力用于完成和自动化许多任务。让我们来看看自然语言处理的一些应用。
注意:文本数据被称为语料库(corpora)或一个语料(corpus)。
04 自然语言处理中的应用
图1-4描述了自然语言处理的一般应用领域。
▲图1-4 自然语言处理的应用领域
1. 自动文摘
包括对语料库生成摘要。
2. 翻译
要求有翻译工具,以从不同的语言翻译文本,例如,谷歌翻译。
3. 情感分析
这也被称为情感的人工智能或意见挖掘,它是从书面和口头语料库中识别、提取和量化情感和情感状态的过程。情感分析工具用于处理诸如客户评论和社交媒体帖子之类的事情,以理解对特定事物的情绪反应和意见,比如新餐厅的菜品质量。
4. 信息提取
这是从语料库中识别并提取重要术语的过程,称为实体。命名实体识别属于这一类,将在下一章中解释。
5. 关系提取
关系提取包括从语料库中提取语义关系。语义关系发生在两个或多个实体(如人、组织和事物)之间属于许多语义类别之一。
例如,如果一个关系提取工具被赋予了关于Sundar Pichai的内容,以及他是谷歌的CEO,该工具将能够生成“Sundar Pichai就职于谷歌”作为输出,Sundar Pichai和谷歌是两个实体,“就职于”是定义它们之间关系的语义类别。
6. 聊天机器人
聊天机器人是人工智能的一种形式,被设计成通过语音和文本与人类交流。它们中的大多数模仿人,使你觉得在和另一个人说话。聊天机器人在健康产业被用于帮助患有抑郁症和焦虑症的人。
7. 社交媒体分析
社交媒体的应用,如Twitter和Facebook,都有标签和趋势,并使用自然语言处理来跟踪和监控这些标签和趋势,以了解世界各地正在交谈的话题。此外,自然语言通过过滤负面的、攻击性的和不恰当的评论和帖子来帮助优化过程。
8. 个人语音助理
Siri、Alexa、谷歌助手以及Cortana都是个人语音助理,充分利用自然语言处理技术来理解和回应我们。
9. 语法检查
语法检查软件会自动检查和纠正你的语法、标点和拼写错误。
关于作者:
卡蒂克·雷迪·博卡(Karthiek Reddy Bokka),语音和音频机器学习工程师,毕业于南加州大学,目前在波特兰的 Bi-amp Systems公司工作。他的兴趣包括深度学习、数字信号和音频处理、自然语言处理以及计算机视觉。
舒班吉·霍拉(Shubhangi Hora),Python开发者、人工智能爱好者和作家。她有计算机科学和心理学背景,对与心理健康相关的人工智能特别感兴趣。
塔努吉·贾因(Tanuj Jain),在德国公司工作的数据科学家。他一直在开发深度学习模型,并将其投入生产以商用。他对自然语言处理特别感兴趣,并将自己的专业知识应用于分类和情感评级任务。
莫尼卡·瓦姆布吉(Monicah Wambugu),金融技术公司的首席数据科学家,该公司通过利用数据、机器学习和分析来提供小额贷款,以执行替代信用评分。她是加州大学伯克利分校信息管理与系统硕士研究生。
*本文摘编自《基于深度学习的自然语言处理》,经出版方授权发布。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。