輸入
形式:已錄制音頻
聲道:單聲道&多聲道
支持格式:wav,flac,opus,m4a,mp3
擁有領先的語音識別技術,核心技術達到國際領先水平,語音識別準確率已經(jīng)超過98%,在業(yè)界遙遙領先。
用戶可將一些非常見的詞匯上傳至識別引擎,當實時轉寫的音頻流中出現(xiàn)該詞匯時,引擎可將其識別出來,提高專業(yè)用語識別準確率。
運用超大規(guī)模的語言模型,智能預測語境,提供智能斷句和標點符號的預測。
對結果中出現(xiàn)數(shù)字、日期、時間等內容格式化成規(guī)整的文本。
形式:已錄制音頻
聲道:單聲道&多聲道
支持格式:wav,flac,opus,m4a,mp3
形式:json格式字符串
編碼:UTF-8
結果:分詞形式&完整句子形式,詞&句置信息度詞&句時間戳,詞屬性,多候選詞,文法格式智能轉換,多發(fā)音人分離
將坐席通話轉成文字,幫助電話質檢和信息同步,也為數(shù)據(jù)挖掘提供原料基礎。
將會議和訪談的音頻轉換成文字存稿,讓后期的信息檢索和整理更方便快捷。
將視頻中音頻文件進行語音轉寫,輕松生成與視頻相對應的字幕文件。
可以從轉寫出的文字結果中搜索匹配相關詞類,對黃暴/涉政內容進行高效鑒別。