語言理解LUIS與混合現(xiàn)實(shí)結(jié)合,讓語音交互變得更加智能

Jyadmin 提交于 周二, 04/30/2019 - 16:09

?

語音輸入是我們和混合現(xiàn)實(shí)設(shè)備交互的重要方式之一,優(yōu)勢(shì)是輸入速度快,學(xué)習(xí)時(shí)間更短。混合現(xiàn)實(shí)設(shè)備的語音交互可以做到:

(1)通過連接混合現(xiàn)實(shí)設(shè)備的麥克風(fēng),捕捉用戶語音指令;

(2)將捕捉到的語音指令發(fā)送到LUIS;

(3)LUIS對(duì)混合現(xiàn)實(shí)設(shè)備捕捉到的語音指令,進(jìn)行信息提取分析,并判斷意圖做出回應(yīng);

自然語言理解

自然語言理解(Nature Language Understanding, 簡稱NLU),同自然語言處理(Nature Language Processing, 簡稱NLP)和自然語言生成(Nature Language Generation, 簡稱NLG)是相關(guān)聯(lián)的三個(gè)概念。

自然語言理解指人工智能的一個(gè)復(fù)雜挑戰(zhàn):如何處理將結(jié)構(gòu)凌亂的輸入語句轉(zhuǎn)化為條理清晰的機(jī)器可理解的語言。因?yàn)槿祟愓Z言的復(fù)雜多變,且無統(tǒng)一的規(guī)則,如發(fā)音歧義、單詞順序顛倒、縮寫表達(dá)、口語化用詞等等,機(jī)器很難處理不可預(yù)知的輸入。

微軟語言理解服務(wù)LUIS (Language Understanding IntelligentService)屬于Azure服務(wù)之一,它可以使應(yīng)用程序理解用戶以自己的語言表達(dá)的內(nèi)容。 LUIS基于機(jī)器學(xué)習(xí),使開發(fā)人員可以構(gòu)建應(yīng)用程序,以便接收采用自然語言的用戶輸入并從中提取含義。

簡單的說自然語言理解的原理就是用一系列規(guī)則或數(shù)據(jù)模型將語句分解為結(jié)構(gòu)有序的實(shí)體,有意義的實(shí)體一定要提取出來再加以定義,并賦予語義上的意義,用以后續(xù)的實(shí)體鑒別。譬如語句:“我需要從十月4號(hào)到10號(hào)去邁阿密的航班和賓館”需要被重新分析定義成:“需求:航班(意圖)/需求:賓館(意圖)/邁阿密(城市)/十月4號(hào)(日期)/十月10號(hào)(日期)/情緒:0.5723(中性)”。LUIS正是提供了這樣一個(gè)可以理解用戶輸入語句的應(yīng)用平臺(tái),用機(jī)器語言理解使用者的意圖。混合現(xiàn)實(shí)設(shè)備基于機(jī)器學(xué)習(xí)可以實(shí)現(xiàn):理解并學(xué)習(xí)輸入語言,同時(shí)能回復(fù)具體的相關(guān)信息。

當(dāng)LUIS與混合現(xiàn)實(shí)結(jié)合時(shí),使用者可直接對(duì)混合現(xiàn)實(shí)設(shè)備的麥克風(fēng)講話操控混合現(xiàn)實(shí)圖像。混合現(xiàn)實(shí)設(shè)備捕捉到用戶聲音,發(fā)送到Azure LUIS中,LUIS會(huì)提取核心信息并進(jìn)行分析,試圖來確認(rèn)用戶請(qǐng)求的意圖。提取出如圖1所示,使用者將語音(Voice)或視線(Gaze)操控混合現(xiàn)實(shí)改變場(chǎng)景內(nèi)物體的大小和顏色。

語言理解LUIS與混合現(xiàn)實(shí)結(jié)合

LUIS的設(shè)置和部署,與MR應(yīng)用的基本操作相似。重點(diǎn)是設(shè)置語言理解端口,在這一過程,使用者將定義實(shí)體和意圖,圖2為實(shí)體,圖3為意圖,意圖是用一句話的方式制定的,再去標(biāo)定這句話對(duì)應(yīng)的實(shí)體。最后選擇訓(xùn)練功能。

語言理解LUIS與混合現(xiàn)實(shí)結(jié)合

通過對(duì)計(jì)算機(jī)進(jìn)行特定語境詞匯訓(xùn)練,可以讓混合現(xiàn)實(shí)設(shè)備能夠根據(jù)使用者習(xí)慣或者場(chǎng)景分析判斷所要做出的操作,從而讓語音交互變得更加智能。

當(dāng)我們通過調(diào)用Azure 語言理解(LUIS)服務(wù)和混合現(xiàn)實(shí)技術(shù)結(jié)合時(shí),混合現(xiàn)實(shí)設(shè)備能夠借助LUIS把麥克風(fēng)收到的語音指令轉(zhuǎn)化為計(jì)算機(jī)理解的語言從而進(jìn)行語言操控,提供了項(xiàng)目更為豐富多樣的交互方式,讓混合現(xiàn)實(shí)項(xiàng)目也能更加貼近場(chǎng)景需求,佩戴者可完全通過聲音來操控設(shè)備,釋放雙手的同時(shí),大幅提高工作效率。例如可以通過機(jī)器學(xué)習(xí)將使用場(chǎng)景的常用語句和使用者說話習(xí)慣對(duì)LUIS進(jìn)行訓(xùn)練,這樣,用戶在通過調(diào)用LUIS的服務(wù)在混合現(xiàn)實(shí)設(shè)備的交互過程也會(huì)變得更為方便。?

目前LUIS主要為大規(guī)模商用解決方案提供服務(wù),相信與混合現(xiàn)實(shí)設(shè)備的結(jié)合,可以為行業(yè)用戶提供更為多元的應(yīng)用。