跟小爱说说话(精选58条)

2023-11-20 11:30:48

跟小爱说说话

1、Q：判不停分类，技能非常多，数据分布不均衡？

2、笑笑：我家里面有我小时候的被子可以拿过来用。

3、Q：服务端设备每个用户单独开设一个通道吗？

4、Q：语音向量加入拒识，架构有没有调整？A：语音架构加入拒识，在架构上有相应的一些解决方案。现在我们多模态模型，是有语音和文本两路输出，语音和NLU其实是在不同的环节处理的。所以说，关于语音向量与NLU的结果同时生效，我们在架构上是有一些特殊做法的。

5、阿哥：不仅是外面，我们的教室里面也是可能有危险的！

6、Dede：是的，我们站在树旁边来告诉大家这里有一棵树。

7、孩子们游戏中的一个小选择可能就蕴含着特殊的意义，他们是天生的观察员，善于发现和体察周围环境的变化，在集体生活中有一定的责任和担当，这种思考我们要支持！

8、语义判不停要解决的问题是如何更加准确地对用户说话中存在的一些停顿判断句子是否结束。根据小爱的用户日志统计，我们发现大约5%~10%的query是没有说完的，这说明用户的很多请求还没来得及说完，小爱音箱就提前响应了。

9、我们采用的是LSTM模型，模型的训练使用了中文的公开的一些数据集，也加入了小爱的一些query。

10、我们采用的方案，处理流程主要分为三步：第一步是规则系统。如果通过规则系统能给出判断的结果，就不会走下一步了。如果规则系统无法确定，就会进行第二步，单轮判别模型。如果单轮判定模型认为用户没说完的话，假设在多轮的场景下，会进行第三步多轮修正，给出最终的结果。

11、目前我们也在把这套复杂任务的框架做成通用方案，方便扩展到更多的任务上。另一部分是在多模态上，我们现在在小爱音箱上已经能够引入一些视觉信息，包括人脸、手势和眼神，未来会增加更多有趣的交互。而在全双工的拒识方面，如果能利用多模态的信息，可以对拒识的准确率有更好的提升。

12、至此，孩子们“沉静”了几天，觉得事情已经告一段落，于是老师也并未继续引导。

13、规则系统主要解决三类query，一类是数量较少相对集中的头部的query，，这一类query通过文本精确匹配的方式能很好地解决。第二类是一些有特定模式的query，可以去做正则的匹配。还有一类是短query，短query用模型相对难处理，我们采用了词性序列匹配的方式进行处理。

14、关于模型的部分，模型主要是解决一些中长尾的query，我们先后尝试了两种方法。第一种是基于语言模型的方法，第二种是基于分类模型的方法。

15、在唤醒小爱同学之后，您可以通过语音指令与它进行交互。例如：“小爱同学，打开蓝牙”、“小爱同学，播放周杰伦的歌曲”、“小爱同学，设置明天早上7点的闹钟”等等。您还可以问它天气情况、实时新闻、电子产品价格以及地图导航等内容。

16、A：不是一回事，全双工比连续对话的范畴更大一些，连续对话是说用户唤醒小爱音箱之后能够不断地聊，全双工的话可能会包含比如可以打断、可以支持自然的停顿、或者是支持主动的交互，全双工的范畴更大一些。这个范畴也是我们赋予的，其实没有一个比较科学的定义说全双工语音交互包含哪些？

17、数据实战派希望用真实数据和行业实战案例，帮助读者提升业务能力，共建有趣的大数据社区。

18、总结一下，全双工交互的实现，涉及到的技术链条相对比较长，从声学、语音到NLP，涉及到算法与架构，需要各个模块的配合，才能达到相对比较好的体验。下面我会对中间的两部分内容：拒识和节奏控制中的语义判不停，分享一下我们在这方面做的一些实践、一些思考，希望能对大家有一些启发。

19、第四是节奏控制，用户会以更加自然的方式对话小爱音箱，就会存在着停顿、节奏的变化，这时需要通过判不停更加智能地适应用户的说话节奏。当用户连续发出多条指令时，也需要对每一条指令的回复进行优先级控制。

20、现在爱钱进正在做数据迁移前的准备，就好像火箭发射，需要谨慎再谨慎，准备再准备哦~

21、最后对服务架构也有比较高的挑战，由于小爱音箱会实时连续不断地把语音传上来，对系统的效率有很高的要求，需要有高效的通信协议，同时能支持多模态的输入和异步的处理。

22、@程老师、周周老师(小班)：小朋友滑下来的时候经常身体会前倾，可能会撞到树，所以我们都会站在旁边提醒小朋友。

23、作者简介：崔世起，就职于小米人工智能部，目前主要负责小爱全双工项目的技术研发。

24、这段视频主要想要给大家演示，用户唤醒小爱之后，可以连续地发出不同的指令，包括闲聊、听音乐、调整音量和问时间，并且小爱能识别出周围人聊天的声音，不做出响应。

25、@舒老师(中班)：我们班的小朋友下滑速度比较慢，暂时没有发现这棵树的危险性。

26、A：语音特征，在PPT中都提到了一些在策略拒识中用到的特征。文本高级特征也是策略拒识中用到的一些特征，包括意图、domain打分，或者频次等等。

27、@贝塔：我的叫“圆立方”，因为他身体长长圆圆的，总是立在那里，然后方就是脸方方的。

28、本来我今天心情不好的，你来找我聊天，瞬间心情变好了。人：打开书房灯。设备已经开了。人：亮度调暗一点。调暗了。人：放一首《燕归巢》。一首《燕归巢》送给你，遇到他道一声别来无恙。

29、@蓉蓉：我和琛琛在负责装手臂，这个软软的手不会弄伤小朋友！

30、另外两边是一些高阶特征，包括从声音能提出来的一些比如音量、语速、信噪比，上图右边是通过NLU模块提到的语义的高阶特征，然后把三类特征做拼接，最后综合分类。

31、第一类是场景式的全双工，是针对全领域而言的。场景式的全双工，只会响应一个或者多个领域的指令，比如听音乐的场景，音箱会响应听歌、选歌、调音量的指令；看视频的场景，设备可以在用户看视频的过程中，允许连续地搜片、选片、快进。目前小爱触屏音箱支持听音乐、控制设备等场景，小米电视支持看视频的场景。

32、按照惯例，我们依然为大家整理了直播中问答环节的精华内容

33、介绍一下效果，我们使用了1万的测试集，相对于策略拒识，语义拒识的准确率能提升10%，召回率能提升10%。效果是非常明显的，但语义拒识也存在着问题。

34、第三是在连续对话的场景下，人一边思考一边说话，产生一些不自然的停顿会更接近于人与人之间真实的表达方式。在多轮对话，也容易省略掉一些内容。

35、总有一些你不认识的人，知道你想知道的东西。PaperWeekly或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

36、特征提取层通过各种模块提取特征。关于特征，首先是NLU部分，NLU是利用小爱大脑意图识别的能力，给出domain和意图的打分。

37、语音特征的提取有非常通用的流程，很多开源的工具就可以实现这样的操作。通过一系列的处理，可以提取到各类特征，比如常用的fbank、MFCC。

38、规则扩充一部分是手动补充，还可以基于用户的session挖掘。如果一个query用户没有说完就被打断了，用户往往会重新再说一遍，这样我们可以计算一个query在历史上被重说的概率，从而拿到很多的候选，然后再做进一步的处理。

39、A：对于多个说话人的问题，目前是实际上在语音识别上也没有特别好的解决办法，特别针对多个说话人，如果中间有一个是有效人声的话，这种还是比较难处理的。

40、然后关于数据集的构建，对于判不停任务，我们把不完整的query看作正样本，正样本的比例在实际的query分布中是很低的，所以我们的重点是如何寻找到更多的正样本。

41、针对上面这种case，只是对上一轮单轮判不完整的query才会出现，所以处理的流程是针对单轮模型判不停的query，采用多轮模型对结果修正。

42、　　音响上面的麦克风禁用了，小爱同学接收不到指令。

43、这时我们尝试采用模型蒸馏的方式，训练一个更小的模型，具体的做法是：首先利用训练集训练了一个大的BERT模型，在BERT模型上效果比较好。然后将这个模型作为teacher模型，最终目标是训练一个更小的ALBERTtiny模型，这是一个层数更少更窄的模型，这个模型如果在线上提供服务，性能会非常高。

44、这就涉及到语音特征的提取，语音信号如果想在神经网络中处理，需要先进行预处理，输入是一维的声音序列，对应到每个时间点，是信号的强度。通过处理之后，会产生一个二维的M乘N矩阵，M是每一帧能拿到的特征维度，N对应到每一帧是时间维度。

45、琪琪：对啊，除了拓展可能还有很多我们没有发现的危险！

46、A：其实我们分类的方式可以理解成是Query的完整性，可是这种方案在我们实验之前不太确定它的有效性或者完整性。这个问题的Query完整性，处理的数据和我们数据可能不太一样。

47、@火火：我画了个很大的眼睛，小朋友要看看滑滑梯下面就是大树！

48、大阿哥：我两边都玩的！去完一号就去二号滑滑梯。

49、可以利用这些特征做下一步的处理。关于模型的选择，我们对比了很多类模型，这里列出两种，一种是单语音模型，另一种是语音加语义的模型。

50、(3)1月5日23:00开始，爱钱进app仍可登录并可浏览、使用除上文两点提到的相关功能以外的功能，如查看收益、资产情况等；爱钱进官网、M站将停止一切服务，具体恢复时间视实际情况而定；

51、第一个阶段是场景拒识，对应场景式全双工。这种方案相对来说比较直接，首先我们定义好场景，确定场景下的意图集合，这是一个有限的集合。然后在意图集合中识别出用户意图，如果不在意图集合内的指令就可以不做响应。这种方式对于场景式全双工来说，基本上能达到可用的效果。

52、经过30K训练集，10K测试集，语音加语义拒识的模型准确率相对于语义拒识提升22%，召回率能提升10%。以上就是关于拒识部分的一些工作。

53、@皓皓：我画了个很大的叹号和很醒目的红色，提醒小朋友一定要注意安全。

54、@笑笑和阿哥自发看“主题墙——‘小爱’的故事”

55、策略拒识的优点首先是比较适合在系统的冷启动阶段使用，比较易于快速迭代。另外一点是可解释性比较强，能针对具体问题，理解背后原因，而且能制定相应的策略进行修正。策略拒识还存在缺点，由于拒识策略的设计是基于一部分特征，而不是综合利用所有特征，也就无法学习特征的组合。

56、小爱同学：我可以学你说话，但是如果你不想玩了可以跟我说退出。你先说吧。