一、AI通用技术划分

AI的通用技术包括语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)、计算机视觉(CV)、知识图谱(KG)、即时定位与地图构建(SLAM)等。下面将介绍AI产品经理需要知道的几个主要的AI技术。

1、语音识别

语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition , ASR)、电脑语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text,STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

2、语音合成

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。

合成器的技术目前有串接合成、共振峰合成、发音合成、HMM基础合成、正弦波合成、深度学习合成。

目前来说,通用TTS基本满足商业化需求,但缺乏人声自然度,无法满足用户高体验预期。

3、知识图谱

知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页即能准确定位和深度获取知识。

知识图谱可以应用在哪些方面呢?智能搜索,对查询分词之后,对查询的描述进行归一化,从而能够与知识库进行匹配。查询的返回结果,是搜索引擎在知识库中检索相应的实体之后,给出的完整知识体系。;深度问答,多数问答系统更倾向于将给定的问题分解为多个小的问题,然后逐一去知识库中抽取匹配的答案,并自动检测其在时间与空间上的吻合度等,最后将答案进行合并,以直观的方式展现给用户。社交网络,Facebook 于 2013 年推出了 Graph Search 产品,其核心技术就是通过知识图谱将人、地点、事情等联系在一起,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。垂直行业应用,对于特定行业对整合性和关联性的资源需求迫切,知识图谱可以为其提供更加精确规范的行业数据以及丰富的表达,帮助用户更加便捷地获取行业知识。

4、即时定位与地图构建

即时定位与地图构建(英语:Simultaneous localization and mapping,一般直接称SLAM)是一种概念:希望机器人从未知环境的未知地点出发,在运动过程中通过重复观测到的地图特征(比如,墙角,柱子等)定位自身位置和姿态,再根据自身位置增量式的构建地图,从而达到同时定位和地图构建的目的。

地图构建,SLAM的地图构建通常指的是建立与环境几何一致的地图。传感,SLAM研究中经常使用许多不同型号的传感器来获得地图数据。这些数据带有统计独立的误差。这个统计独立是解决度量偏差和检测中的噪声的强制需求。定位,传感器的结果会作为定位算法的输入。建模,以上结果对地图构建的贡献,可以在“2D建模并分别表示”或者在“3D建模并在2D上投影表示”中工作得一样出色。地图构建就是这样一个动态模型的最终运算结果。

5、自然语言处理(NLP)

定义

自然语言处理(NLP)是一种计算机科学和人工智能的分支,旨在让计算机能够理解、解释和生成人类语言。NLP的主要任务包括文本分类、信息提取、情感分析、机器翻译、自动问答等。NLP使用大量的数据和算法来训练模型,以便让计算机能够理解自然语言,并从中提取有用的信息。

应用

NLP的应用非常广泛,涵盖了许多不同的领域。以下是一些常见的NLP应用:

(1)文本分类:将文本分成不同的类别,例如垃圾邮件过滤、情感分析等。

(2)信息提取:从文本中提取有用的信息,例如实体识别、关系抽取等。

(3)机器翻译:将一种语言翻译成另一种语言。

(4)自动问答:回答用户提出的问题,例如智能客服、智能助手等。

(5)自然语言生成:生成自然语言文本,例如自动摘要、文本生成等。

  • 技术

    NLP的技术包括以下几个方面:

    (1)语言模型:语言模型是NLP的基础,它用于预测一个句子或文本序列的概率。

    (2)词向量:词向量是将单词表示为向量的技术,它将单词嵌入到一个高维空间中,使得相似的单词在空间中更加接近。

    (3)序列模型:序列模型是一种用于处理序列数据的模型,例如循环神经网络(RNN)和长短时记忆网络(LSTM)。

    (4)注意力机制:注意力机制是一种用于选择重要信息的技术,它可以帮助模型集中注意力于关键信息。

    (5)预训练模型:预训练模型是一种用于提高模型性能的技术,它使用大量的数据进行训练,以便让模型学习更多的知识。

    未来发展趋势

    NLP的未来发展趋势将集中在以下几个方面:

    (1)多语言处理:NLP将会越来越多地关注多语言处理,以便让计算机能够处理不同语言的文本。

    (2)知识图谱:知识图谱是一种用于表示知识的技术,它将实体和关系表示为节点和边,以便让计算机能够理解和推理知识。

    (3)迁移学习:迁移学习是一种用于在不同任务之间共享知识的技术,它可以帮助提高模型的性能和效率。

    (4)语音识别:语音识别是NLP的一个重要应用,它将会越来越多地被应用于智能家居、智能车辆等领域。

  • 6、计算机视觉(CV)

  • 定义

    计算机视觉(CV)是一种人工智能的分支,旨在让计算机能够理解和处理图像和视频。CV的主要任务包括图像分类、目标检测、图像分割、人脸识别等。CV使用大量的数据和算法来训练模型,以便让计算机能够理解和处理图像和视频。

    应用

    CV的应用非常广泛,涵盖了许多不同的领域。以下是一些常见的CV应用:

    (1)图像分类:将图像分成不同的类别,例如识别数字、识别动物等。

    (2)目标检测:在图像中检测出特定的目标,例如人、车、交通标志等。

    (3)图像分割:将图像分成不同的区域,例如医学图像分割、自然场景分割等。

    (4)人脸识别:识别出人脸并进行比对,例如安防、身份验证等。

    (5)视频分析:对视频进行分析和处理,例如行为识别、视频监控等。

    技术

    CV的技术包括以下几个方面:

    (1)卷积神经网络(CNN):CNN是CV的基础,它用于提取图像的特征。

    (2)目标检测算法:目标检测算法是一种用于检测图像中目标的技术,例如RCNN、YOLO等。

    (3)图像分割算法:图像分割算法是一种用于将图像分成不同区域的技术,例如FCN、UNet等。

    (4)人脸识别算法:人脸识别算法是一种用于识别人脸的技术,例如Eigenface、Fisherface、LBPH等。

    (5)视频处理算法:视频处理算法是一种用于处理视频的技术,例如光流法、帧差法等。

    未来发展趋势

    CV的未来发展趋势将集中在以下几个方面:

    (1)深度学习:深度学习是CV的未来,它可以帮助提高模型的性能和效率。

    (2)三维视觉:三维视觉是CV的一个重要方向,它可以帮助计算机理解和处理三维图像和视频。

    (3)增强现实:增强现实是一种将虚拟场景叠加在现实场景之上的技术,它可以帮助计算机与现实世界进行交互。

    (4)自动驾驶:自动驾驶是CV的一个重要应用,它可以帮助汽车实现自主驾驶。

    二、总结

    NLP和CV是两个不同的领域,它们都是人工智能的重要分支。NLP旨在让计算机能够理解、解释和生成人类语言,CV旨在让计算机能够理解和处理图像和视频。NLP和CV都使用大量的数据和算法来训练模型,以便让计算机能够理解和处理自然语言和图像。未来,NLP和CV将会越来越多地被应用于各种领域,例如智能家居、智能车辆、医疗健康等。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐