您的位置: 蕭山網(wǎng) >  新聞中心 >  蕭山新聞 >  時政經(jīng)濟 > 

讓數(shù)字人去工作讓人類去思考去創(chuàng)造——專訪杭州一知智能科技有限公司董事長、CEO 陳哲乾

[ 時政經(jīng)濟 ]    
2024
08-27
08:15

民營企業(yè)是蕭山發(fā)展的一張金名片,不僅是推進新型工業(yè)化的主體,更是與蕭山共生共榮、彼此成就的命運共同體。區(qū)融媒體中心推出“我們企業(yè)在蕭山”全媒體微訪談,深入企業(yè),聆聽蕭山企業(yè)家們的改革創(chuàng)新實踐故事。本次訪談對象是杭州一知智能科技有限公司公司董事長、CEO陳哲乾。

記者:陳總,先給我們介紹一下公司的產(chǎn)品吧。

陳哲乾:這個模塊就是一知所有的產(chǎn)品矩陣,一知本身的定位是基于人機交互技術(shù)去找到更多的載體,幫助企業(yè)跟用戶之間更好地互動。比如說我們的第一個產(chǎn)品,是以電話作為載體,我們會有智能客服,智能地外呼,呼出、呼入都有。此時此刻,由一知機房里對外服務(wù)的員工,我們稱為“AI員工”,有20萬。

記者:這個看起來這么逼真,它也是數(shù)字人嗎?

陳哲乾:這個產(chǎn)品,是數(shù)字人短視頻。建模之后,只需要輸入文字,就可以呈現(xiàn)出我在拍視頻的那個狀態(tài)。這就解決了請真人主播價格昂貴的問題。

記者:這樣做出來的直播,會不會只是簡單地重復(fù)一些錄好的話術(shù)?能不能實現(xiàn)和用戶的互動?

陳哲乾:對一知來說,要做的事情就是要讓觀眾在平均三分鐘之內(nèi),不要感受出主播有任何問題,感覺到就是一個非常真實的主播?;A(chǔ)的比如說互動問題,以及如何更逼真,包括各種特寫,這些技術(shù)一知在開發(fā)這個產(chǎn)品的第一課其實全部都解決掉了。

記者:目前在市場上使用我們數(shù)字人主播的品牌或者直播間多不多?我們的市場占有率大不大?

陳哲乾:我們在消費領(lǐng)域市場占有率應(yīng)該算是行業(yè)第一了,占據(jù)頭部位置。比如說像美妝行業(yè)市場占比將近40%,雅詩蘭黛、唯品會、歐萊雅、薇諾娜,這些其實差不多都是頭部品牌。

記者:數(shù)字人最核心的技術(shù)在哪些方面?

陳哲乾:數(shù)字人核心技術(shù)第一個模塊是語音識別,就是你講的話它要聽得懂,然后是語音合成,讓它能夠像人一樣去發(fā)聲,讓你不會感覺到它很機械,這兩個可以理解成機器人的大腦,它背后其實是大量的算法聚集在一起。還有一塊AIGC,是把數(shù)字人的皮膚做出來,所以我們會看到像AI換臉技術(shù),還有人臉生成技術(shù)等。

記者:陳總,我們要制作一個這樣的虛擬主播,大概需要幾個步驟?

陳哲乾:可以理解成三個步驟。第一步,一般會對主播進行妝造。第二步,主播妝造完畢之后,所有的燈光全部調(diào)好,面前會有一個提詞器,主播只要對著這個提詞器大概說5分鐘的話,我們可以捕捉到主播的音色,以及他發(fā)每個音的時候整個面部的肌肉、嘴巴、唇動以及牙齒之類的。我們采集好這個視頻之后,第三步,進行訓(xùn)練。訓(xùn)練也很快,大概三個小時就訓(xùn)練好了,之后這個模型后續(xù)就只需要輸入文字就可以用了。

記者:這樣的主播放進去,直播間搭建好,還需不需要公司其他的工作人員,比如說助播、中控再來操作?

陳哲乾:都不用了,已經(jīng)完全是自動化了。你可以理解成我花半小時把直播間整個搭建好,然后一鍵啟動,人可以離開。

記者:當(dāng)時為什么選擇數(shù)字人這個賽道?

陳哲乾:我覺得剛好可以用兩句話回答,第一句話是“相信科技終將帶來的極致力量”。為什么做數(shù)字人呢?因為技術(shù)可以幫助人類在工作中大幅度提高效率。

把這個技術(shù)變成像人一樣的員工,所以把它定義為“數(shù)字人”,或者我們稱為“數(shù)字員工”。我們希望數(shù)字人能夠發(fā)揮的價值,正印證了一句話:“機器應(yīng)該工作,人類應(yīng)該思考”,讓數(shù)字人、機器去工作,把人類的精力騰出來,去做一些有思考性、創(chuàng)造力的工作。


來源:蕭山日報  

作者:記者 朱柏影 汪觀能 俞嘯煜  

編輯:顧晨艷
相關(guān)新聞
推薦閱讀