diff --git a/silero-vad.ipynb b/silero-vad.ipynb old mode 100755 new mode 100644 index c8235cf..89babc3 --- a/silero-vad.ipynb +++ b/silero-vad.ipynb @@ -14,7 +14,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "FpMplOCA2Fwp" }, "source": [ "## VAD" @@ -24,7 +25,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "62A6F_072Fwq" }, "source": [ "### Install Dependencies" @@ -32,15 +34,36 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 1, "metadata": { "ExecuteTime": { "end_time": "2020-12-30T17:35:43.397137Z", "start_time": "2020-12-30T17:33:10.962078Z" }, - "hidden": true + "colab": { + "base_uri": "https://localhost:8080/" + }, + "hidden": true, + "id": "5w5AkskZ2Fwr", + "outputId": "545c0988-965d-4462-eb06-d4c5a48d8969" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[?25l\r\u001b[K |▏ | 10kB 16.5MB/s eta 0:00:01\r\u001b[K |▍ | 20kB 20.7MB/s eta 0:00:01\r\u001b[K |▌ | 30kB 23.6MB/s eta 0:00:01\r\u001b[K |▊ | 40kB 24.5MB/s eta 0:00:01\r\u001b[K |▉ | 51kB 25.9MB/s eta 0:00:01\r\u001b[K |█ | 61kB 23.6MB/s eta 0:00:01\r\u001b[K |█▏ | 71kB 19.5MB/s eta 0:00:01\r\u001b[K |█▍ | 81kB 20.3MB/s eta 0:00:01\r\u001b[K |█▌ | 92kB 18.4MB/s eta 0:00:01\r\u001b[K |█▊ | 102kB 17.6MB/s eta 0:00:01\r\u001b[K |█▉ | 112kB 17.6MB/s eta 0:00:01\r\u001b[K |██ | 122kB 17.6MB/s eta 0:00:01\r\u001b[K |██▏ | 133kB 17.6MB/s eta 0:00:01\r\u001b[K |██▍ | 143kB 17.6MB/s eta 0:00:01\r\u001b[K |██▌ | 153kB 17.6MB/s eta 0:00:01\r\u001b[K |██▊ | 163kB 17.6MB/s eta 0:00:01\r\u001b[K |██▉ | 174kB 17.6MB/s eta 0:00:01\r\u001b[K |███ | 184kB 17.6MB/s eta 0:00:01\r\u001b[K |███▏ | 194kB 17.6MB/s eta 0:00:01\r\u001b[K |███▍ | 204kB 17.6MB/s eta 0:00:01\r\u001b[K |███▌ | 215kB 17.6MB/s eta 0:00:01\r\u001b[K |███▊ | 225kB 17.6MB/s eta 0:00:01\r\u001b[K |███▉ | 235kB 17.6MB/s eta 0:00:01\r\u001b[K |████ | 245kB 17.6MB/s eta 0:00:01\r\u001b[K |████▏ | 256kB 17.6MB/s eta 0:00:01\r\u001b[K |████▍ | 266kB 17.6MB/s eta 0:00:01\r\u001b[K |████▌ | 276kB 17.6MB/s eta 0:00:01\r\u001b[K |████▊ | 286kB 17.6MB/s eta 0:00:01\r\u001b[K |█████ | 296kB 17.6MB/s eta 0:00:01\r\u001b[K |█████ | 307kB 17.6MB/s eta 0:00:01\r\u001b[K |█████▎ | 317kB 17.6MB/s eta 0:00:01\r\u001b[K |█████▍ | 327kB 17.6MB/s eta 0:00:01\r\u001b[K |█████▋ | 337kB 17.6MB/s eta 0:00:01\r\u001b[K |█████▊ | 348kB 17.6MB/s eta 0:00:01\r\u001b[K |██████ | 358kB 17.6MB/s eta 0:00:01\r\u001b[K |██████ | 368kB 17.6MB/s eta 0:00:01\r\u001b[K |██████▎ | 378kB 17.6MB/s eta 0:00:01\r\u001b[K |██████▍ | 389kB 17.6MB/s eta 0:00:01\r\u001b[K |██████▋ | 399kB 17.6MB/s eta 0:00:01\r\u001b[K |██████▊ | 409kB 17.6MB/s eta 0:00:01\r\u001b[K |███████ | 419kB 17.6MB/s eta 0:00:01\r\u001b[K |███████ | 430kB 17.6MB/s eta 0:00:01\r\u001b[K |███████▎ | 440kB 17.6MB/s eta 0:00:01\r\u001b[K |███████▍ | 450kB 17.6MB/s eta 0:00:01\r\u001b[K |███████▋ | 460kB 17.6MB/s eta 0:00:01\r\u001b[K |███████▊ | 471kB 17.6MB/s eta 0:00:01\r\u001b[K |████████ | 481kB 17.6MB/s eta 0:00:01\r\u001b[K |████████ | 491kB 17.6MB/s eta 0:00:01\r\u001b[K |████████▎ | 501kB 17.6MB/s eta 0:00:01\r\u001b[K |████████▍ | 512kB 17.6MB/s eta 0:00:01\r\u001b[K |████████▋ | 522kB 17.6MB/s eta 0:00:01\r\u001b[K |████████▊ | 532kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████ | 542kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████ | 552kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████▎ | 563kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████▌ | 573kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████▋ | 583kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████▉ | 593kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████ | 604kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████▏ | 614kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████▎ | 624kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████▌ | 634kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████▋ | 645kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████▉ | 655kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████ | 665kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████▏ | 675kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████▎ | 686kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████▌ | 696kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████▋ | 706kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████▉ | 716kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████ | 727kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████▏ | 737kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████▎ | 747kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████▌ | 757kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████▋ | 768kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████▉ | 778kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████ | 788kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████▏ | 798kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████▎ | 808kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████▌ | 819kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████▋ | 829kB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████▉ | 839kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████ | 849kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████▏ | 860kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████▍ | 870kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████▌ | 880kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████▊ | 890kB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████▉ | 901kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████ | 911kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████▏ | 921kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████▍ | 931kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████▌ | 942kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████▊ | 952kB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████▉ | 962kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████ | 972kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████▏ | 983kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████▍ | 993kB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████▌ | 1.0MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████▊ | 1.0MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████▉ | 1.0MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████ | 1.0MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████▏ | 1.0MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████▍ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████▌ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████▊ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████▉ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████▏ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████▍ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████▌ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████▊ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████ | 1.1MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████▎ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████▍ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████▋ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████▊ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████▎ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████▍ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████▋ | 1.2MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████▊ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████▎ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████▍ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████▋ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████▊ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████ | 1.3MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████▎ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████▍ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████▋ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████▊ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████▎ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████▌ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████▋ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████▉ | 1.4MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████▏ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████▎ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████▌ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████▋ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████▉ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████▏ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████▎ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████▌ | 1.5MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████▋ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████▉ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████▏ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████▎ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████▌ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████▋ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████▉ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████▏ | 1.6MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████▎ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████▌ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████▋ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████▉ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████▏ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████▍ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████▌ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████▊ | 1.7MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████▉ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████▏ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████▍ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████▌ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████▊ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |█████████████████████████████▉ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████▏ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████▍ | 1.8MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████▌ | 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████▊ | 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |██████████████████████████████▉ | 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████ | 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████▏| 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████▍| 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████▌| 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████▊| 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |███████████████████████████████▉| 1.9MB 17.6MB/s eta 0:00:01\r\u001b[K |████████████████████████████████| 1.9MB 17.6MB/s \n", + "\u001b[?25h" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "Downloading: \"https://github.com/snakers4/silero-vad/archive/master.zip\" to /root/.cache/torch/hub/master.zip\n" + ] + } + ], "source": [ "#@title Install and Import Dependencies\n", "\n", @@ -83,7 +106,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "dY2Us3_Q2Fws" }, "source": [ "**Classic way of getting speech chunks, you may need to select the tresholds yourself**" @@ -91,16 +115,43 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 2, "metadata": { "ExecuteTime": { "end_time": "2020-12-30T17:35:44.362860Z", "start_time": "2020-12-30T17:35:43.398441Z" }, + "colab": { + "base_uri": "https://localhost:8080/" + }, "hidden": true, - "id": "aI_eydBPjsrx" + "id": "aI_eydBPjsrx", + "outputId": "17d317e6-ec8c-46a2-c5ec-682c1391e58d" }, - "outputs": [], + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/usr/local/lib/python3.7/dist-packages/torch/nn/modules/module.py:889: UserWarning: stft will soon require the return_complex parameter be given for real inputs, and will further require that return_complex=True in a future PyTorch release. (Triggered internally at /pytorch/aten/src/ATen/native/SpectralOps.cpp:639.)\n", + " result = self.forward(*input, **kwargs)\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{'end': 35000, 'start': 0},\n", + " {'end': 112000, 'start': 35000},\n", + " {'end': 124000, 'start': 112000},\n", + " {'end': 320000, 'start': 143000},\n", + " {'end': 628000, 'start': 319000},\n", + " {'end': 752000, 'start': 632000},\n", + " {'end': 801000, 'start': 775000},\n", + " {'end': 960000, 'start': 811000}]\n" + ] + } + ], "source": [ "wav = read_audio(f'{files_dir}/en.wav')\n", "# get speech timestamps from full audio file\n", @@ -131,7 +182,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "n8plzbJU2Fws" }, "source": [ "**Experimental Adaptive method, algorythm selects tresholds itself (see readme for more information)**" @@ -139,11 +191,37 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 3, "metadata": { - "hidden": true + "colab": { + "base_uri": "https://localhost:8080/" + }, + "hidden": true, + "id": "SQOtu2Vl2Fwt", + "outputId": "3a560cf3-a882-4db7-ad7e-0ab9bf1a9698" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{'end': 35000, 'start': 0},\n", + " {'end': 112000, 'start': 35500},\n", + " {'end': 246000, 'start': 142500},\n", + " {'end': 288500, 'start': 251500},\n", + " {'end': 315500, 'start': 289500},\n", + " {'end': 603500, 'start': 318000},\n", + " {'end': 623000, 'start': 606500},\n", + " {'end': 713000, 'start': 631000},\n", + " {'end': 728500, 'start': 712000},\n", + " {'end': 748500, 'start': 726500},\n", + " {'end': 798500, 'start': 775000},\n", + " {'end': 899500, 'start': 811000},\n", + " {'end': 914000, 'start': 897000},\n", + " {'end': 962000, 'start': 913000}]\n" + ] + } + ], "source": [ "wav = read_audio(f'{files_dir}/en.wav')\n", "# get speech timestamps from full audio file\n", @@ -155,7 +233,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "Lr6zCGXh2Fwt" }, "outputs": [], "source": [ @@ -183,7 +262,8 @@ "end_time": "2021-04-15T13:29:04.224833Z", "start_time": "2021-04-15T13:29:04.220588Z" }, - "hidden": true + "hidden": true, + "id": "xCM-HrUR2Fwu" }, "source": [ "**Classic way of getting speech chunks, you may need to select the tresholds yourself**" @@ -191,16 +271,44 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 4, "metadata": { "ExecuteTime": { "end_time": "2020-12-15T13:09:59.199321Z", "start_time": "2020-12-15T13:09:59.196823Z" }, + "colab": { + "base_uri": "https://localhost:8080/" + }, "hidden": true, - "id": "q-lql_2Wjsry" + "id": "q-lql_2Wjsry", + "outputId": "ada632d4-eaba-475e-b00c-fa8238411792" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{4000: 'start'}]\n", + "[{39000: 'end'}]\n", + "[{43000: 'start'}]\n", + "[{115500: 'end'}]\n", + "[{121500: 'start'}]\n", + "[{127500: 'end'}]\n", + "[{150500: 'start'}]\n", + "[{291000: 'end'}]\n", + "[{295000: 'start'}]\n", + "[{322000: 'end'}]\n", + "[{326500: 'start'}]\n", + "[{631500: 'end'}]\n", + "[{640500: 'start'}]\n", + "[{755000: 'end'}]\n", + "[{782500: 'start'}]\n", + "[{804500: 'end'}]\n", + "[{818500: 'start'}]\n" + ] + } + ], "source": [ "wav = f'{files_dir}/en.wav'\n", "\n", @@ -212,7 +320,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "t8TXtnvk2Fwv" }, "source": [ "**Experimental Adaptive method, algorythm selects tresholds itself (see readme for more information)**" @@ -220,11 +329,47 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 5, "metadata": { - "hidden": true + "colab": { + "base_uri": "https://localhost:8080/" + }, + "hidden": true, + "id": "BX3UgwwB2Fwv", + "outputId": "8d704639-6f3e-4520-d6ac-7ac988265286" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{2000: 'start'}]\n", + "[{40000: 'end'}]\n", + "[{44000: 'start'}]\n", + "[{115500: 'end'}]\n", + "[{151000: 'start'}]\n", + "[{251000: 'end'}]\n", + "[{260000: 'start'}]\n", + "[{291500: 'end'}]\n", + "[{298000: 'start'}]\n", + "[{320500: 'end'}]\n", + "[{326500: 'start'}]\n", + "[{612500: 'end'}]\n", + "[{615000: 'start'}]\n", + "[{628000: 'end'}]\n", + "[{639500: 'start'}]\n", + "[{718500: 'end'}]\n", + "[{720500: 'start'}]\n", + "[{755500: 'end'}]\n", + "[{783500: 'start'}]\n", + "[{805000: 'end'}]\n", + "[{819500: 'start'}]\n", + "[{902000: 'end'}]\n", + "[{905500: 'start'}]\n", + "[{921000: 'start'}]\n" + ] + } + ], "source": [ "wav = f'{files_dir}/en.wav'\n", "\n", @@ -283,7 +428,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "36jY0niD2Fww" }, "source": [ "## Number detector" @@ -293,7 +439,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "scd1DlS42Fwx" }, "source": [ "### Install Dependencies" @@ -303,7 +450,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "Kq5gQuYq2Fwx" }, "outputs": [], "source": [ @@ -336,7 +484,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "qhPa30ij2Fwy" }, "source": [ "### Full audio" @@ -346,7 +495,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "EXpau6xq2Fwy" }, "outputs": [], "source": [ @@ -360,7 +510,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "u-KfXRhZ2Fwy" }, "outputs": [], "source": [ @@ -375,7 +526,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "iwYEC4aZ2Fwy" }, "outputs": [], "source": [ @@ -389,7 +541,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "fHaYejX12Fwy" }, "outputs": [], "source": [ @@ -403,7 +556,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "PnKtJKbq2Fwz" }, "source": [ "## Language detector" @@ -413,7 +567,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "F5cAmMbP2Fwz" }, "source": [ "### Install Dependencies" @@ -423,7 +578,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "Zu9D0t6n2Fwz" }, "outputs": [], "source": [ @@ -453,7 +609,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "iC696eMX2Fwz" }, "source": [ "### Full audio" @@ -463,7 +620,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "c8UYnYBF2Fw0" }, "outputs": [], "source": [ @@ -486,7 +644,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "hEhnfORV2Fw0" }, "source": [ "## VAD" @@ -505,26 +664,34 @@ }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 6, "metadata": { "ExecuteTime": { "end_time": "2021-04-15T13:30:22.938755Z", "start_time": "2021-04-15T13:30:20.970574Z" }, "cellView": "form", + "colab": { + "base_uri": "https://localhost:8080/" + }, "hidden": true, - "id": "Q4QIfSpprnkI" + "id": "Q4QIfSpprnkI", + "outputId": "119e85c9-bb9a-43bb-ae23-7d197b470096" }, "outputs": [ { - "ename": "NameError", - "evalue": "name 'torch' is not defined", - "output_type": "error", - "traceback": [ - "\u001b[0;31m\u001b[0m", - "\u001b[0;31mNameError\u001b[0mTraceback (most recent call last)", - "\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m\u001b[0m\n\u001b[1;32m 10\u001b[0m \u001b[0;32mfrom\u001b[0m \u001b[0mIPython\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mdisplay\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mAudio\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 11\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 12\u001b[0;31m _, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',\n\u001b[0m\u001b[1;32m 13\u001b[0m \u001b[0mmodel\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m'silero_vad'\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 14\u001b[0m force_reload=True)\n", - "\u001b[0;31mNameError\u001b[0m: name 'torch' is not defined" + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[K |████████████████████████████████| 4.1MB 19.5MB/s \n", + "\u001b[?25h" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "Downloading: \"https://github.com/snakers4/silero-vad/archive/master.zip\" to /root/.cache/torch/hub/master.zip\n" ] } ], @@ -583,7 +750,8 @@ "end_time": "2021-04-15T13:34:22.554010Z", "start_time": "2021-04-15T13:34:22.550308Z" }, - "hidden": true + "hidden": true, + "id": "TNEtK5zi2Fw2" }, "source": [ "**Classic way of getting speech chunks, you may need to select the tresholds yourself**" @@ -591,25 +759,32 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 7, "metadata": { "ExecuteTime": { "end_time": "2021-04-15T13:30:14.475412Z", "start_time": "2021-04-15T13:30:14.427933Z" }, + "colab": { + "base_uri": "https://localhost:8080/" + }, "hidden": true, - "id": "krnGoA6Kjsr0" + "id": "krnGoA6Kjsr0", + "outputId": "edab010a-e066-42a0-9b4c-2ab2579b6b47" }, "outputs": [ { - "ename": "NameError", - "evalue": "name 'init_onnx_model' is not defined", - "output_type": "error", - "traceback": [ - "\u001b[0;31m\u001b[0m", - "\u001b[0;31mNameError\u001b[0mTraceback (most recent call last)", - "\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mmodel\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0minit_onnx_model\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34mf'{files_dir}/model.onnx'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 2\u001b[0m \u001b[0mwav\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mread_audio\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34mf'{files_dir}/en.wav'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 3\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 4\u001b[0m \u001b[0;31m# get speech timestamps from full audio file\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 5\u001b[0m \u001b[0mspeech_timestamps\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mget_speech_ts\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mwav\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mmodel\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mnum_steps\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m4\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mrun_function\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mvalidate_onnx\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n", - "\u001b[0;31mNameError\u001b[0m: name 'init_onnx_model' is not defined" + "name": "stdout", + "output_type": "stream", + "text": [ + "[{'end': 33000, 'start': 0},\n", + " {'end': 112000, 'start': 35000},\n", + " {'end': 287000, 'start': 143000},\n", + " {'end': 317000, 'start': 287000},\n", + " {'end': 623000, 'start': 319000},\n", + " {'end': 752000, 'start': 632000},\n", + " {'end': 801000, 'start': 775000},\n", + " {'end': 960000, 'start': 811000}]\n" ] } ], @@ -643,7 +818,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "21RE8KEC2Fw2" }, "source": [ "**Experimental Adaptive method, algorythm selects tresholds itself (see readme for more information)**" @@ -651,11 +827,38 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 8, "metadata": { - "hidden": true + "colab": { + "base_uri": "https://localhost:8080/" + }, + "hidden": true, + "id": "uIVs56rb2Fw2", + "outputId": "50ce9117-17d8-4bef-eb53-7204c56c4b7b" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{'end': 35000, 'start': 0},\n", + " {'end': 112500, 'start': 34500},\n", + " {'end': 245000, 'start': 140000},\n", + " {'end': 286500, 'start': 251500},\n", + " {'end': 315000, 'start': 285000},\n", + " {'end': 527500, 'start': 316500},\n", + " {'end': 603500, 'start': 524500},\n", + " {'end': 623500, 'start': 606500},\n", + " {'end': 713000, 'start': 629500},\n", + " {'end': 738500, 'start': 711500},\n", + " {'end': 751000, 'start': 735000},\n", + " {'end': 797500, 'start': 772500},\n", + " {'end': 883000, 'start': 809000},\n", + " {'end': 914500, 'start': 897000},\n", + " {'end': 962000, 'start': 911500}]\n" + ] + } + ], "source": [ "model = init_onnx_model(f'{files_dir}/model.onnx')\n", "wav = read_audio(f'{files_dir}/en.wav')\n", @@ -667,13 +870,15 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-04-15T13:34:41.375446Z", "start_time": "2021-04-15T13:34:41.368055Z" }, - "hidden": true + "hidden": true, + "id": "cox6oumC2Fw3", + "outputId": "1c18d7b1-ae80-42cb-c2e1-b6494104e5f7" }, "outputs": [ { @@ -708,7 +913,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "i8EZwtaA2Fw3" }, "source": [ "**Classic way of getting speech chunks, you may need to select the tresholds yourself**" @@ -716,7 +922,7 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 9, "metadata": { "ExecuteTime": { "end_time": "2020-12-15T13:09:09.606031Z", @@ -733,16 +939,44 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 10, "metadata": { "ExecuteTime": { "end_time": "2020-12-15T13:09:11.453171Z", "start_time": "2020-12-15T13:09:09.633435Z" }, + "colab": { + "base_uri": "https://localhost:8080/" + }, "hidden": true, - "id": "NC6Jim0hjsr1" + "id": "NC6Jim0hjsr1", + "outputId": "4c48843d-8510-4d26-c546-220e22a85361" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{4000: 'start'}]\n", + "[{37000: 'end'}]\n", + "[{43000: 'start'}]\n", + "[{115500: 'end'}]\n", + "[{150500: 'start'}]\n", + "[{291000: 'end'}]\n", + "[{294500: 'start'}]\n", + "[{321000: 'end'}]\n", + "[{326500: 'start'}]\n", + "[{627000: 'end'}]\n", + "[{639000: 'start'}]\n", + "[{718000: 'end'}]\n", + "[{721000: 'start'}]\n", + "[{755500: 'end'}]\n", + "[{783000: 'start'}]\n", + "[{804000: 'end'}]\n", + "[{818500: 'start'}]\n" + ] + } + ], "source": [ "for batch in single_audio_stream(model, wav, run_function=validate_onnx):\n", " if batch:\n", @@ -752,7 +986,8 @@ { "cell_type": "markdown", "metadata": { - "hidden": true + "hidden": true, + "id": "0pSKslpz2Fw3" }, "source": [ "**Experimental Adaptive method, algorythm selects tresholds itself (see readme for more information)**" @@ -760,9 +995,10 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 11, "metadata": { - "hidden": true + "hidden": true, + "id": "RZwc-Khk2Fw4" }, "outputs": [], "source": [ @@ -772,11 +1008,53 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 12, "metadata": { - "hidden": true + "colab": { + "base_uri": "https://localhost:8080/" + }, + "hidden": true, + "id": "Z4lzFPs02Fw4", + "outputId": "8d2f9cb4-dbc7-4c7c-dde1-ff3b3297aa07" }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[{0: 'start'}]\n", + "[{38000: 'end'}]\n", + "[{43000: 'start'}]\n", + "[{115000: 'end'}]\n", + "[{148500: 'start'}]\n", + "[{250500: 'end'}]\n", + "[{260000: 'start'}]\n", + "[{292000: 'end'}]\n", + "[{293500: 'start'}]\n", + "[{320000: 'end'}]\n", + "[{325000: 'start'}]\n", + "[{548000: 'end'}]\n", + "[{547500: 'start'}]\n", + "[{613000: 'end'}]\n", + "[{615000: 'start'}]\n", + "[{626500: 'end'}]\n", + "[{638000: 'start'}]\n", + "[{697500: 'start'}]\n", + "[{718000: 'end'}]\n", + "[{720000: 'start'}]\n", + "[{756000: 'end'}]\n", + "[{781000: 'start'}]\n", + "[{804500: 'end'}]\n", + "[{817500: 'start'}]\n", + "[{872000: 'end'}]\n", + "[{871000: 'start'}]\n", + "[{902000: 'end'}]\n", + "[{905500: 'start'}]\n", + "[{920500: 'end'}]\n", + "[{920000: 'start'}]\n" + ] + } + ], "source": [ "for batch in single_audio_stream(model, wav, iterator_type='adaptive', run_function=validate_onnx):\n", " if batch:\n", @@ -834,7 +1112,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "7QMvUvpg2Fw4" }, "source": [ "## Number detector" @@ -845,7 +1124,7 @@ "metadata": { "heading_collapsed": true, "hidden": true, - "id": "bL4kn4KJrlyL" + "id": "tBPDkpHr2Fw4" }, "source": [ "### Install Dependencies" @@ -861,7 +1140,7 @@ }, "cellView": "form", "hidden": true, - "id": "Q4QIfSpprnkI" + "id": "PdjGd56R2Fw5" }, "outputs": [], "source": [ @@ -905,7 +1184,7 @@ "metadata": { "heading_collapsed": true, "hidden": true, - "id": "5JHErdB7jsr0" + "id": "I9QWSFZh2Fw5" }, "source": [ "### Full Audio" @@ -920,7 +1199,7 @@ "start_time": "2020-12-15T13:09:06.473386Z" }, "hidden": true, - "id": "krnGoA6Kjsr0" + "id": "_r6QZiwu2Fw5" }, "outputs": [], "source": [ @@ -936,7 +1215,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "FN4aDwLV2Fw5" }, "outputs": [], "source": [ @@ -956,7 +1236,7 @@ "start_time": "2020-12-15T13:09:08.820014Z" }, "hidden": true, - "id": "B176Lzfnjsr1" + "id": "JnvS6WTK2Fw5" }, "outputs": [], "source": [ @@ -970,7 +1250,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "yUxOcOFG2Fw6" }, "outputs": [], "source": [ @@ -984,7 +1265,8 @@ "cell_type": "markdown", "metadata": { "heading_collapsed": true, - "hidden": true + "hidden": true, + "id": "SR8Bgcd52Fw6" }, "source": [ "## Language detector" @@ -995,7 +1277,7 @@ "metadata": { "heading_collapsed": true, "hidden": true, - "id": "bL4kn4KJrlyL" + "id": "PBnXPtKo2Fw6" }, "source": [ "### Install Dependencies" @@ -1011,7 +1293,7 @@ }, "cellView": "form", "hidden": true, - "id": "Q4QIfSpprnkI" + "id": "iNkDWJ3H2Fw6" }, "outputs": [], "source": [ @@ -1051,7 +1333,7 @@ "cell_type": "markdown", "metadata": { "hidden": true, - "id": "5JHErdB7jsr0" + "id": "G8N8oP4q2Fw6" }, "source": [ "### Full Audio" @@ -1061,7 +1343,8 @@ "cell_type": "code", "execution_count": null, "metadata": { - "hidden": true + "hidden": true, + "id": "WHXnh9IV2Fw6" }, "outputs": [], "source": [ @@ -1110,5 +1393,5 @@ } }, "nbformat": 4, - "nbformat_minor": 1 + "nbformat_minor": 0 }