[教程] 用 curl 跑通 Azure 的 Speech to Text API
如果你想做 Azure 的语音转文字 API,这篇教程至少可以节省你1个小时的时间
![[教程] 用 curl 跑通 Azure 的 Speech to Text API](/content/images/size/w2000/2020/04/speech-to-text.jpg)
这篇文章讲什么?
如何使用 curl 跑通 Azure(微软) 的 Speech to Text API(语音转文字)
最终结果:成功把语音 ->
data:image/s3,"s3://crabby-images/83b1b/83b1b455d8e194ec3a319cb52f97bfe82c5ac899" alt=""
(注:因为只是测试,Google_Gnome.wav 是我网上随便找来测试的文件,
和谷歌没有啥关系)
这个文件的下载地址是:
https://github.com/googleapis/nodejs-speech/blob/master/samples/resources/Google_Gnome.wav
(之前做谷歌的语音转文字拿到了这个示例文件,所以这次就顺手拿来测 Azure 了)
转成文字:
data:image/s3,"s3://crabby-images/bcace/bcace485805f71a52d66892840706ea17c438da5" alt=""
为什么用 curl (命令行)?
- 我试过 Azure 官方提供的 "Speech to Text" Javascript/Node.js SDK
没能成功,报错信息不好理解,例子就1个,我也没心情去死磕这个 SDK
反正归根到底都是 HTTP 请求,那就直接用 HTTP
这篇文章对谁有用?
- 程序员
- 需要实现 Azure 的语音转文字 API 的程序员
这篇文章有什么用?
- 节省时间:至少替你节省了1个小时看文档的时间
正文开始
第一步,创建资源
点击左上角 Create a resource
data:image/s3,"s3://crabby-images/42043/42043f0b99db70010ae5c3fb05320004f286c1b3" alt=""
选择 Speech 这个应用
data:image/s3,"s3://crabby-images/157d0/157d0e3b01ddaabd5939c537dd3b003552e3764d" alt=""
data:image/s3,"s3://crabby-images/afaa2/afaa23f7d4c8e5e9913106182b008993798261a0" alt=""
选择 create
data:image/s3,"s3://crabby-images/bac84/bac8472fc234c30c9457b68d68e13b71163b54b1" alt=""
接下来如何填写
- Name 随便写
- Subscription 随便选,有 Free Trial 就选 Free Trial,没有就选 Pay as you go 之类的
- Location 选 East US
因为后面的例子会以 eastus 为基础,如果你和我选的不一样,后面的例子就跑不通了。
data:image/s3,"s3://crabby-images/1d4ea/1d4ea47a04ba8d6d488149e67da1b13981551361" alt=""
点击 Create,
稍等片刻就可以了:
data:image/s3,"s3://crabby-images/ab058/ab058757cef6d25795f1e513236fd23156a5df84" alt=""
如果蓝色按钮 Go to resource 是灰色的,点击不了。
可以点一下右上角的 Refresh
点击 Go to resource 之后长这样:
data:image/s3,"s3://crabby-images/afa93/afa932df87b5abdd9ed5c236f18d4cbed72e9a49" alt=""
我们要的就是这个 Key1 和 Endpoint
好,必要的信息拿到了,接下来我们用 curl
第二步:使用 curl 以及 Swagger
如果只给出 curl 命令会让人觉得莫名其妙,这些命令是哪里来的?
所以我们配合官方文档来一步步解释
重要概念1:身份
https://docs.microsoft.com/en-us/azure/cognitive-services/authentication
data:image/s3,"s3://crabby-images/41b9d/41b9da94d3a9e9b16acf574fd0c2bb6d3d02e2c6" alt=""
发 HTTP 请求当然需要身份认证了,为了身份认证需要 authentication token
为了获取 authentication token
我们跑一下这条命令:
curl -X POST \
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issuetoken?scope=speechservicesmanagement" \
-H "Content-type: application/x-www-form-urlencoded" \
-H "Content-length: 0" \
-H "Ocp-Apim-Subscription-Key: [填入你的 Key1]"
注意,Ocp-Apim-Subscription-Key 的值需要换成你自己的 Key1 (前文提到过)
比如这样:
curl -X POST \
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issuetoken?scope=speechservicesmanagement" \
-H "Content-type: application/x-www-form-urlencoded" \
-H "Content-length: 0" \
-H "Ocp-Apim-Subscription-Key: 75ba067f9f72427baxxxc32e59p63xxx"
运行结果:
data:image/s3,"s3://crabby-images/47b3a/47b3a27e539ee700f1d039ce1ac6e994c0a7b0ef" alt=""
看下下面的文档:
- 这个 token 是必须要的
- 有效期10分钟
data:image/s3,"s3://crabby-images/f18df/f18df1de993ac75b2b71bf1bc39761550833f869" alt=""
第三步,使用官方的 Swagger
访问:https://eastus.cris.ai/swagger/ui/index#
data:image/s3,"s3://crabby-images/b0562/b056295abccf442236de8894aea4d0c451671529" alt=""
填入身份验证所必须的信息:
点击右侧的 Authorize 按钮
data:image/s3,"s3://crabby-images/6a094/6a0944e1d8cfb1d2f0fc5b116f0d2e5d76d8f7b8" alt=""
data:image/s3,"s3://crabby-images/6518c/6518c15a8c5bd7587f05482d99bd8934b9236c77" alt=""
subscription_key (apiKey) 填入 Key 1
data:image/s3,"s3://crabby-images/c8b34/c8b343910f72adabe886a7142f3fd9746e22e131" alt=""
data:image/s3,"s3://crabby-images/734f2/734f2eff3ef7e47b39c7c261f60765f00f96cd1e" alt=""
token (apiKey) 这里填入之前命令行返回的那一大串内容
data:image/s3,"s3://crabby-images/d7f90/d7f904281caecb928254333e17e7ec89aa6c4b52" alt=""
data:image/s3,"s3://crabby-images/47b3a/47b3a27e539ee700f1d039ce1ac6e994c0a7b0ef" alt=""
data:image/s3,"s3://crabby-images/b91cb/b91cb3fba806eb22a8ef8f597b5dd0606c83d230" alt=""
data:image/s3,"s3://crabby-images/d2cbd/d2cbd06af2fdf8a29071964356ead47b887738dc" alt=""
第三步:身份认证的东西都做完了,我们进入正题
如果要转录60秒以上的音频,要创建识别任务
data:image/s3,"s3://crabby-images/2c26c/2c26c63b8b9e11810fb4a1a4a27483949769124e" alt=""
我们继续用 Swagger
Custom Speech transcriptions: -> POST Create a new transcription
data:image/s3,"s3://crabby-images/96698/96698cf0a98d865559eafc7585988781ed06000d" alt=""
点击右上角 "Try it out"
data:image/s3,"s3://crabby-images/605d8/605d8592a1c4fba26c00bf6639a663c7ebe73bf8" alt=""
然后:
data:image/s3,"s3://crabby-images/3bf5d/3bf5d2e52e765f9e4b315c8c88623c0eb67edb40" alt=""
recordingsUrl
是音频文件的地址
我传到了 Azure 的文件存储里,所以有了这个地址:
https://bluebucket.blob.core.windows.net/bird/Google_Gnome.wav
这个地址之后可能过期(我担心扣我钱所以删掉)
所以读者需要自己把 Google_Gnome.wav 文件传到自己的 Azure 文件存储里,获得一个线上地址(URL)
具体步骤省略,
反正 Azure 这个文件存储就类似 Google 的 Cloud Storage 或者 Amazon 的 S3
读者肯定可以搞清楚怎么上传的,这里就不塞多10来张图片来进行演示了。
data:image/s3,"s3://crabby-images/d8128/d812886abf444394dc6b30822a8282a2526de287" alt=""
点击 Execute 运行
data:image/s3,"s3://crabby-images/dd463/dd46324712ca3d09fefe2eb7deeacc7e6318b315" alt=""
返回结果如下
curl 命令也包含了,需要的话直接复制就行
data:image/s3,"s3://crabby-images/857d7/857d715334ef18f755ab551e2f79c34110f1e46a" alt=""
重点是
location: https://eastus.cris.ai/api/speechtotext/v2.0/transcriptions/cfd7814f-4cb6-44aa-baf7-50c711811af6
operation-location: https://eastus.cris.ai/api/speechtotext/v2.0/transcriptions/cfd7814f-4cb6-44aa-baf7-50c711811af6
这里是返回了任务 ID,我们再通过其他接口去查这个任务的具体情况
data:image/s3,"s3://crabby-images/e882f/e882f5bb803bae0e5f9b6ee3c065f0f63dfa7564" alt=""
把 ID 填进去
data:image/s3,"s3://crabby-images/0ba09/0ba093ab60f2ea3f1f031a40430bdd3bf7a842b9" alt=""
点击蓝色 Execute 按钮
结果如下:
data:image/s3,"s3://crabby-images/238cb/238cbffbc61bc3aed41d64281653828887cdd569" alt=""
重点是 resultsUrls:
"resultsUrls": {
"channel_0": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/760cd8d6-2072-4e29-aea5-ba0c71375a37.json?sv=2019-02-02&sr=b&sig=tNfK1GjFuDiFcnpzPnhcwHHvvjJTu%2FRAvwDLcA6oMXc%3D&st=2020-04-12T08:31:48Z&se=2020-04-12T20:36:48Z&sp=rl"
},
直接访问就可以看到结果了
data:image/s3,"s3://crabby-images/1a74a/1a74a402185bf82a10c1e86d5feb03e2d6219893" alt=""
全文完,语音转文字成功了
总结
- 第一步:我们在 Azure 后台里创建 Speech 这个资源
- 第二步:得到 Key1 和 Endpoint
- 第三步:通过 Key1 和 Endpoint 获得 Authtication Token
- 第四步:访问 Swagger,提供 Key1 和 Authtication Token
- 第五步:调用创建任务接口,得到任务 ID
- 第六步:查询任务 ID,得到任务结果(文字)
感谢阅读