From 3efee3b272ad70f8ef2d1ec61d0b7fd6028d70fe Mon Sep 17 00:00:00 2001
From: Dimitrii Voronin <36505480+adamnsandle@users.noreply.github.com>
Date: Mon, 11 Jan 2021 14:11:56 +0200
Subject: [PATCH 1/4] Update README.md

---
 README.md | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)
diff --git a/README.md b/README.md
index 26b5fa9..7d2521e 100644
--- a/README.md
+++ b/README.md
@@ -217,7 +217,11 @@ TBD, but there is no explicit limiation on the way audio is split into chunks.
 
 ### How Language Classifier Works
 
-TBD, but there is no explicit limiation on the way audio is split into chunks.
+- **99%** validation accuracy
+- Language classifier was trained using audio samples in 4 languages: **Russian**, **English**, **Spanish**, **German**
+- More languages TBD
+- Arbitrary audio length can be used, although network was trained using audio shorter than 15 seconds
+
 
 ## Contact
 

From 07687e33d801deee83c744606d9136cec6917c11 Mon Sep 17 00:00:00 2001
From: adamnsandle <dvoronin322@gmail.com>
Date: Mon, 11 Jan 2021 12:13:46 +0000
Subject: [PATCH 2/4] fx models dimension bug

---
 files/model.jit  | Bin 2870157 -> 2870221 bytes
 files/model.onnx | Bin 4451292 -> 4451716 bytes
 utils.py         |   1 -
 3 files changed, 1 deletion(-)

diff --git a/files/model.jit b/files/model.jit
index b2d21a86ab335ac80d30bf85284c49a9a0517ee6..f52a626a60aa41d941ec1277355adf81b7bcebca 100644
GIT binary patch
delta 3949
zcmZ9N2|SeB8^_1nLbkCFDoP{FTT%#xVPq#`BrW!<Bo!*rI@C)_QZyYCN%rhaT4Wnp
zvX+FRnAAn35Lb)T|Gdq;{_dU6$A{ndJkN8U^E=NRF`!VO75;=_0vLkL!{%cPu!Wc)
zCWI}*gfS6J6cfY5F(M{`Nn%o%G$w<|VsaP>lgAV=MQky)1Y3$JVanJtY&oWat-#2b
zDz*|+!_+a2+Y}ngv~}v$lBoRRvghEz-L7J<#k3Dc9^q{=AQ-K^U{Ty{n!ifHT3n;5
z5^X#(a*2NJ;P@Y<(|*eRpLWOXv@PHk+vOU_H)Ki0jczDZz2HEVtl3s4wuT#CeBrY8
z!Cw;T9cAhZRebN!X|0bm*n3wyG6*510t-b9o0Hau*2-6MEbEzjZXLRGHK#1;wAZ0z
z&a#_#LqG^Ae?jV4lFR0naE<*onsp)}wA^5N*ZnANCd0RCl~I7*;}5RGA1Vz7PB+m*
zhMhv4G7ME#Rx|9*KP;-IckN}lwvvlpnH>{x&{bEvM_hlF(BN&jGfgSq{FUM-A0aiz
zmUSKn9i!}v9CR&bn50L3KX;BZd|sJLt$7{k9s$<G98x-VQn%=IlU%}KI~$QekrMrY
z7+R?Kx?eGyWq*B$k>xO=e|&UZo?B~359_m-;aQkI>F_=9xi&R=^yWL8=5!&mM*~-0
zhL`kQXdGJ8I^<{gf@{2pH|f0dg5U9PDyna?jo&@%o~ZKWbSQje9<dO+e|$&$*65=S
zr{g|Kg)x|3EmzHJszu0>x4b-wex%Ec&qt+Ri+XCEC-3vURa3Jo+}Gzxo3hTfJl_Jk
zI8_!E?w&CcsUv5zkB@AME!!dc4H<|H-rd|o^ghpG4o<|B`c`V9NpDY)+f%oO|8#vC
z_c+J$!15g<H_c;AMVS5fl4q>XERFrrD-}7GHj=_x9WNoChc4li=aI{gq>YBV*lAsq
z8SfA(wNnx%G7jd;roU}__H~JZI{C<`x+-wpvB%+!_J;GO8Dxz0{Xs~4vbF~M$yNs$
zu`fK0lC~j*LX+us{gsj{3^$2h!94OrZVM*nJ*=}mzDb{k?Yhc5s~&J{Tv(X9x$L5b
zKO3XJ3CP?pC0hTc@~4k)e7Nl1>)fEM8$sYDC;r(PL(hS$dmjo3wX-r<lByN2YijCL
z&NKl%g&22JPKB5E^B`*bNOphUNRi)Afd1#o?;pRL=DRA)NdGeQJE3iSmi@giSnv7%
z&Z-v$1x<|-`|qpuSywn5;Jt6SIxnO7y+`*WcfEncP~dcz-JLsNF5lf6`FvEpZX!uF
zy5b7Y06ePXu)>vq1Ie8j*#B@wfNm=&q;4zhtv`=IFaTki6lDQn5N<(P4S3oVL2xMn
zm1b)C?D7uw^$7IeXF*#?*zx-lv(-LoiMdQNyRUyOd6`iCTlxX)qr30%l3dS{4QErr
z_x1FB<t)BhtKVhUZFjfV&B(2Dg0s9<xz>D5s-&ou$z-Od#Q12*C0m)aW$(GlkGNr0
z64K?NV}c)ACl7b-4tY4WtM5z2XhpYMA=BO7D6u2I#oNNrvA%U1o2Bm0eH?u!ZM9qp
zTU096Y;U$)$@<+F+s=8QDHqqqTQ+h8m%4|ZP+Dp<Mz;y3FA9H>C%HsVK_h;1OQ5be
zyKk)zZ*ZN{4~FL6g(|$SebOJa{}9ykE;Mi25>+&My|$Rd&^<{}y{)*x$Nrt%k)~73
zZC||mNI`{4nEU9o-Py?%c1pU746G*`HPT4QgPxnpwVfG%ro9}H_EwEPAb)8<$}557
zCm(MkuPN(?F54Apl%?Khn6kvFLCyTrH!LDPJbQ4$+Crb3_g?P!J*!01h@y2{hS%->
z!{F(N(+k#~>Yjk5lJ=?BdPloOuJ!sp4r3mzKjx7zl+JT%JS8xg^H+ve73*|!+|0a|
z4^#B5&zaT{>zBQAbL;(Xneaf65uy2FT4wx|SMQ4L8;QJAb&hd2&xTccyGakOZFE<1
zb$z<NH*){W9URGAtR7?8OypV9Ben#^OUu-2dS%xKnyfteRK?il&SJ}i%j8J?>=IE~
zW?)C`Wy{OYu~f-Q7q8_FR)<AOBjh^9<(=K^KFqHxXlT8yAL}2)ev|TAx;Ue(ePv)-
zXag;$XY%HsJ63B3>v?p)q*?W*?Yi;g*vQlXxsO(~czxG=+wusW58I3Nr`3Xc?j~ZS
ziOK1pj&T~NE8SV%ek76hRCc(@Tj6L1lfx{Qw~z{adrm2k94Y9fv$CdMc#&?GP%jp<
z{Q6<V>@75>$Xm6_V@IP>UZv-%UMc!sBIAI17j`8cmtQp&6HR%e?O$o65cvAJVa~MC
z;)Y<iTW7v5b}qLL4G?h-%2OuMblTNu1tDn{5XR9@?HJY3<Ra-xrf9}`HN9um$-^B?
zSNX>@A~KwH=+fFC<Hg_hJn76k$J+B~L%_+EE62WjZn&^9@}=>ELso6&KK6~9ZKvG5
zdJ26%a<s;$$<!5{M4PD;AEND)SEI4Yiw5%XEhP=)4`%Nswom)3pS1a$<^0p2kxKlL
zW-xtta~L4B42=kfb*B&8v#5duHQxTt3FgIX{<76JZAWwkj0MLIwi$~g2lxyqJOA`0
z1dw^8&O_#{x>~EMBj%3~0@wO7i6y;fJ8DC6ekc+8RXrJhCG0JzApC57aTiILm*O|I
zp5Ty^oJDw<`9hkIEKp?28AZm<zd!11KO+}LJv7x%pLF|nO*!X>B_UIHS}E%5w!fGs
zQU}X~cu`&Rssy%KRXcZ1JW!nIFDeP^wY;+aqms49U`2bKKRe$wtd@FiNT+yBTgB#6
zGk>MEYr2^A*c^~sG%Vl5?WQUyt~yc1{L~sTS<hzeVwCo&iItAM%GgrQt+P(5&kqI}
zZ=bw-o94B4CRA0iSgA<dlw{Gd;J(&-+SChM&$b;RH9u^GPhA=*WE_`mA?7)I^~E`q
z_I}oQ;8wCRyuxRO+_I7EZ*|0@slGk?8x?=o(znW0f%ybNr7*Zjp(qLH&OU5Q1l9sB
zpsb73q1@3ysXmMT{{&hkp#Dq#pGhFl33ESDn&5Q-Y7S)Bs2-A~4Y+L73b5EHMPLS0
zv(b}?u>o*QLaE@?HB<*l*)S`F!3<7J3~{m@5KSlxK<RB%0^CeQ6_Fn5EGB{*c@XO+
zp^5@$06htfLR`%7RX1?Sj3Nw9X2Dg*>o5s1$FUVCy^gL%(k=L6RWfYM)Cw0gkd=&T
zA}ek9Lg5Cgk2u=lf(r8ODT_ej4U~e!+0PPbesPTySbX1RKK_w{iUFA%yipvZ^jU0*
z=rBNW3AzKYZ^8ziI`M_j7K#{HlL{+i&Uh>h@ZM6SKw&CuWsl1olHfuS|NAs)uyXWv
z+}W)lWhZ4mXh?(k2X@X9alpI_TkuVXfsSr?k?r7RI;<$|!53B@uvlyjj5(75V`@ET
zH<AXE8L+)v?>Xe9H|+7Zk*rK;b2BK)M2{fb{XlUhY74^r_%>6JnIJq#5Ad>3d&J=|
zUq~FJtN=u421v_>Tb&4*#llx_p&JpCWB&q@Aodo#c==N}r2-~yCG-;(XU>vMNNhM?
z{5%c!7SDytZ%)q=84!b$Kny2;`<a44n|=?_@;unZzR3Tsr9{F?aFi%WY!tXz4(CKV
zANqhs^Myn7KNe)=!~B3t{M%bv08Mp?<BOQMe{QI*0LBPh!S5piNn+u@cLLQ^=)tQ(
zxDo;I-M0fq5vnN=2*QidIE0Wmrz5RI*zNve*vzM-|KdYgu#89vEF*CP-`5>Pl)&#(
z2Pi5*;}I-%PCT0fyYow*Lzdo#Lmiz7Uf+g!&<={gHNd+K^GtK_CS5>FDNGs9<qM}f
zF#1_O|8zrl;L4RkzGy0hM};#+LClKhl>c=XU4yLV{F^KQ=kCE9wJpWR#R>$JQsltW
z`!IFhy*b3_9`wJz4&FBRK0MpL2Y8X+_b&zxRKOH!8BDRL_%~k0AIqUK+>WX_`<hh2
z2gCINOwr)}7rS%$11kZhAHY1jhxiq{gWz%)ty_<aI3&0k&)N<yR=^W&ZRLyTRtk~7
zp<X3S6nKo=v=wMop$kAkCCtA5WR@5p5l{J9wN<c0z%#zsT#Xtagf3jr0G*4H_>aZs
zYFKZydluUwQa${Huo_r=nhT3}_RbOm<jgC+sOpF3RCoxN&-c#~BFM)H^);WYtA!1y
zyy1)TTG&9%TU`A9YLEcE4#wsT&LRDS{JWqa&BHjRf~tB{7;LGBfs*fMi7|5f11@v`
zeS{(dEF0jm$;d2G;#<|(0H2I5FxG(XL;62~@dnfs+;{{B!t6U9sttOkDbiqZBTR0d
z=96QMs3o%J7cTU`1yT5-!et3SYJw&m6$N1yl;4;H)NVk08OM=&I9?9gno!+&GWsYO
h*F#kS+Kg&R#_6NK|0U6F7YgEk_=A1T=;DQZ{6CRZ+fV=i

delta 3933
zcmZ9N2|ShA8^^ELk|iW$i4daq%~m9leV0&5NTsr+vZpe2rI$>GxRzrV%9bVj&Lw0C
z6~bg9ie$~!q#FP8c4z#}+|S2{-}gMf=RD_m&OJIo0bMBk@yF?K1gFOta7LU7--I*c
zEI2F9hHu8%aSogl--2`DTXAlj2j|7N;e0qhE`ST-+i@XW7~g@5;G(z~z7rS6C2&c6
z7cPZM<GV{xZH#Pd_C}uP)^Nd-)hOdQy~;aH68jst$LI#QwPO+zdECN;FJ*dvUlo31
z6dx5+7zUcuLHES1y={4t{Uawc`h<QPJI2!Ho7BIxB{PNDK6f+-j8IRuv<g&`nR{LA
zc<3qnPD!UazK=Rw8e_QIzxsF59ma*dne0XUPsuB-{4zddj#o#IgJbfSy1ceYFRjcj
z%%=5e@+2>||EePY$h7UzwRcCHOF7yP@+k~hewqf4CPF`5Phz|Ihn2x8bAfh_%dF&_
zD1#=_$$MHJAGh(h+hkK7$1#-o8M?j8X8OSJrE7f4$jK!q*WUEfEZe6^o8L)LtjCYZ
zvKF$eWRFX)Au8lfGIsi2uAkwk_|S{T^NZOYT{;EbOpfM*$el1P7rHB2+a~gkx_4`h
zcRO2tu77<}0V{1C4&yx$9ea1{gK`V?Sc@$sOK}Nmh0ddX?cR?Zj^bh$Jd9^GtuME{
zUj*aV1XWZAr05dsE`}&v7CH0qf>5(m(x0oVbCc8F#??tj$;XBcWgB75HIiDbSLrl!
z$nyFf=NhPN5?tBY)E%#6cj`&ge+=Hq^2WNz`kHhvzd*^tCU)Mb$0wxk8Z_T)^eJ~r
zjb%{sx-UFwVf9!dMXlzfQ`z%x)XdmrC-vc2-*K;^qxXmIi`(>~QR<-NeetIV+h9Sz
zEQ|D>M&-PM?+?ihVbeeM-)#6{sOs#}A<7Ws6L>xbMC1LAOEU8TEUOVaZwaQxH0X?K
z8RwS<L=D9W){D~zHgyR<dQUN7lTp5vp8C<!IKVcW?58{_5J_RV{6Y6+udrJ4y+w}}
zDRZ)7n3gUlCl~$hclWN}jwv)!RjcVWz{Pb>>R%6D$lxs?KiD$;a4M!K#>idi^uEiH
z4_=fQifarGK0F&}lj%Ox<}@VvWm;lcl#{>W(ZCCOZEpt`2VEn#iYM-ctq&F^P4&~Q
zUR-kH=f66{si^v?Tv_$f?_alvRTtbUzGaSC>8~{<$O#Vr)@`3$=iA4=Vzca4_1M*O
zudeNEu<smYd&R0=;RnshwAFszqW;h?EyEvrFFP)ygL9ErRHuC<n->!$Lu#W$Q%rK}
zird^DJZtW$?57|4;!Y-+n`~khUo2bPM^7Rtv4T_-6++BOz}^890h$HaE-)#Ja+29d
zHvj*Go-hp-(&I^vdprEAl!spMxkCLizr-1%bLLxxE{GZLzwBo23z{W1EA=S#%v`lH
zvs(T>Z5*)4NAsl#t~)=Gp$tCiG18-1e|o(P4%cCb9?|;k8rOHasm>+uK1W}NZ+qvy
zz5VibD&MLgBe`qxgrlT5IazwlG54@syUqM!;*2vEcxl(2rm^sYId^mK#HD+U_J?G-
z3bm!buVfQGbK@5-nQmdzY*|!%OT16O*fw$ASD^y=&0;;(L7RuH9q*lK*Xz_|NE{;H
zaCMv>ahxtS3S{M4sr3=^6Fc6Mc~sjqRcC+nmGhaSciH8}b-2C=YJDWL*L8ch$~V5Z
z2nqK|+kR(6kzRZ>G@BwV^5MjhUw!se+G`p=#_dn1*&oiaudqp*@wen(Nu*qx^Y=U~
zoDx+r!M&}EDJ`bkN#GqralEbI$kxk@#~V@e)b7~MQp4iz3w|$yeFhGS+2|_y4&*s0
z`nD$1FD5RR$)AY~_#*L5g&YfV<?yeeJg1_k-Om1X<-SAUk4#Hvamw2_<#}ZM`ZvRz
z7m|MUJJt8_8r=S?txEQ}L)&QqJL|ryzq<+#y)Aij5pThxJ3?~x%%gkVL%4ZbWbL!M
z+%+9<zS^a3yuxD;8zB*NAghXr*S+I@gh9lB%emT{1?}2l5zefim}N4^`xJ62WA`)P
zv%8<*;<2NDjP;pTkJP#0rF7E~@6Tb)mZf7l*z%22vvW`CDnr7<3^4W7&;j8lqnePj
z%9pON#$4lTXxsY~?WkmNPY;fl9iRL%7Bd#;SgYqMPaaSXd?@!Kx_R${@!I%#1rLdl
zR_;S1hR>NBoo#SaKJJTE0_3aA3Hk>o_ghr{#=)PlRbygti&nMK853#yP^I1KS;4id
zXDjS)QI*AWo(l~w&9n)zJ?pagF*m55KW8l5G@L)WhI5vgvp-uk64MP7<MON(ao~w)
z_qxC9`{Yi~ng_p7%`bX+>ab7$sxE_nR$CJFzjcsPVHbzJxJYPK{PB-^<nynCmg{1v
zXAFAmhxUzg3}zQb{UJ3NaKW@~mM`On=j%EWH`#FEi_!8ON>b$XQ_7)Tg9Z}SqJz&Q
zs`ps)8M|GWDM<CUT9`t~`U_6C$%;-Xoh<Wv{F@W)80RTGNmgI2NFxk2`8VF0d)*{G
z0L6Bu{$?b#lwvvm2`uhURdV#&4(eBiQ^yZ!WL54RLw<?!KSWaR90XcdJFdn5$q`-8
zO)Y1Uw=~o0JkBuh)>S7!^&rJN4l|6f^m(yTqa682YK&(K9Ovlg13q21F#Uo0Yj~~<
zn=hGujo*%vxu{y5b$mPDS{$0osZ?ij*WT`*Lbpe9B>vM^z0j|&r>x1;@A#{XH@jYe
z>#m+3Za6BJ3w<^lRgswv@hV6dzVXcYDq0#|7CEJZR0Vm?vzrC&VoMQ9_G1&P^>B2E
zv&`c((vkVaOoi9YOLc3ehhImiw2F7tSLaiQHD>j=U(>%<_}F-%N>t=XmCnjO`H4Kq
zioJ#n4sCx)m-bU@ob9%bqu12?j=Vp%Uv6;s+4_=v=EW0jZ)FB`c5gR`948YmSoEuB
zTtN&ZQu@yqYzG|^XwXMxfLuH#$e^!{knXB0qUGv}nAQcB^~Vkb$6~HR|96r|=A@0E
zJF-Bm0MjELKz2}@iERNMahM<yvk%b4V}_tF4nyf`W8$%!$X^FQL?WgE>f$j)<m|z9
z!3qu~KtfU@h&3?NL>a+y2~6}Z0VayqSjU`TI2U4{L`;xQ2ZSeL!3duYv1$ii=%B2$
z-6N8qsZp1}hG01flR+-%)5N7@Oc|jwB!o7YNXBH5aU+_rPQeZ!T!#sv0cK257Vsto
zLy@DV>x7$@+~omGzUK%HtEFP>z%qv@l)zJF>sSj}vH+ipFdHzK3JahdqX|Px*dn(y
zm|6EY5vvVEKcHK|TpBDz+G+zCutGWhK218zY+_Bc_yicSMH#@RhtMx;yG}SjeK{;4
z^C1l6vLljM1EEJSW6x=t2tEUobvMG8r;lI^es+B$ZlIU}%X2-qfe4-dXN-Lru+1T0
zJ_Eao2)KaH8JG#6y3pE;BDEfbNg0S{VWtSDH%*v(qT;{|HUo@h!L8JM*D)*5%*Ip^
z(v5!;F3_C~M?Y|rz#5>QXeR6^Oix}Xx`^3rnoz$3cR%tNE~f{q6CTh>5P6&+e|K~Q
zhmHDqh3s=-9eaZQyEYO8Gr`M*B4)whT@Ab`$MRq&rtZ<i{g8i}Fp&rSa^bZ3+2zBw
z@=<7_lk(4u7z<!bLnJYgK;%?3@!J+Sq`@u-KY=THfY{v{P@Z72bn>9#2}VJv@f#{~
zPk`0t6~bcj6aR~gGhrH&BADhyGO_Pz&|Cz+P?2E12#Z8?(>BBp7Q^axKioj<O5n9N
z$pB)d&<ERr(%AsfQs|@0A&RsDo6Df3@G(t9mci(#Jlg4`%HfJ-0Zp(zfk%b63`OV*
zH>B67z~qpbqJI-c&{hE_%2rBT7(-A{if#jTmC*XMd;_^z0sAk~0;f$^1<$spnn?0<
z{_G&X7Fx(v(85&vZ!AjtPDoV~?Wo(ZuYWy!G7_tyWs>?|oZLXWvRi;^4fJh(N{sk4
zD6N6f%guzKAW9vC%Nlgm!V_)lq=}ABl#{lhZyhu?bP;Vj0o>~`Mlf3k-F7e5i3+0k
zisoXV!W447G!aI{R1j((A+$kw1I9;tF7`ISd<FgM*aUesNHb6yVRF?*m^}K;I#EG%
z{-BAqVR%mKr*PSLc%5*98G@{h(1>RfEMRn$CcZbp0s`I>;^$X`4}>?v*o)&Eh{yzO
z7AO+(k-!>Ytp#HRQ7tg=<>We1N4%#9p$NjKQ66yj8C)h!uah0LR`IsNM<WKvw_=x&
zlv$wAifMu2R(K)kSBcPlK=3=t4Q$(>IpiCSRJCCSi1ZpEl)>}O@J)rwTYyzNY?8`m
zK-EWoVm{!M0`W@%>njsj3~+Q{O7y+T7*IHXNdngnOrGoL0qp00Cvy{~O~fA<$nC(k
IGtuz>02z1S!~g&Q

diff --git a/files/model.onnx b/files/model.onnx
index ec07633500f68b65172397b9b578c6d32f01f9b3..f2c293933a3bef0f910b8cad58e5cc7f66eba4e6 100644
GIT binary patch
delta 2000
zcmZvcTWl0n7{@)Q?V0IzwwLX0ce`L|OQBE-&diyaodJ~vLJXCQrYSO$)Uv>q7IAyq
zDiD-LkpWRI)^LdMP$G&Xyx;>T@c}Dd5=e-MNGl+`7(&z+AFO~;{ARi(;j+nZ_nb4|
z`TxK3&DrnT$X>kt>Rwzfl9157Ios8{wj-XW%t_4s{mRMm%?K;<;2yLSE81WTFU5-f
zb~|?4F#^2bJRlz^;O&^u7qMcnL(QZLCHNQ3q#0pVVI?hODOOe9+Ct8jVwLh4?Ia>%
zRpawBBp*U_zPO7lgMq<5>?VCE!NeYN7nwY-muyE-iw5!))zU)Vw;C50b!A>_Q!IA!
z9C=B?Lr4fr@&i<kvgDYAEPi~zGoUgb-su@og@3opGoUJq>?XaKQnqV1xr3?3x4-9G
z7`{Tnx6pGIRC&Zg=Wp#HrzK2vzVHyK01tyZ9}|M$ys4w)1%yoY`6nccELQ(1xr;TK
zPd!FlRAGTWm1SSw%;{_N5q*<SJx)?VtSNlQDN-q7P31>UlLCY_%0K&(tbl>W?hKPY
ztm!QCm1kk_4QI$ZsD#R@Z$iO@$_o4MYtoqq1HR!K@~s33%0G}s5vtnyGbu+<rJgHf
zHNv{ge!NOHV_o6PuMrUzRKDsLa?lgheL=$))Y!f2zM#fmxk2iJSf_mdALI=Y>l!cp
z3na0w^J!zgror65$rkX$w@D!sg-dtHM<{CgdX}%3$W<X>QP$H+S_{0a6MV`)gkwl<
z<X^H?#D>gUh!8^9P<W>xybJ@CofU;m*r0q-p&-D5#+L?!*KuU7S6q|ECAc4b*;FRm
zW|{^&xsudBTLr$Vsrmt0ys)_=)t!c?iP{2x81OHcsrgY}`BYPn2cAo1JJP)n#*X|(
zqB(iv0eNe%te}2doxjhkm1=smQq4rXaB)w6YGa#e$+ZRkFmM_90sa*;%{W=o4o{U@
zyrjKheV_=eGHq*mQ<=3LYD>VY(?q^jyr{XSKb_tJ8Cz<tkef7w1No^<>AvJWR`f2B
zo)4Az|J>OdI<vFWo4UJtvvdvdWvn4o(9j$xN^k5-PgpDnj3@1v#FFFEl6C1!wlljK
zJm}yyGI^#pzT1*vcP`irk*@x1cYhW#>RkV7SLZs2)>vLpn1wCM<)BcK#FoYvEEC`|
zSO#CYTqsS#C0M^l2zwW9>t3Na30G3)?|%;~FjC#47X)_nf>;6*%1>Po!x%=od;X%x
z&R;C_mJNR6VqpbFraN}2kd0jml!27^Qy_>fMQ#$&6XTzTu!u^9g>Z`$tx3$ESZx&Z
zbE|q&^-ykgi2XS$FWT5pT#Eb+Mw1txygyIm=JzF`i|ro?grSSEV<UkYuZf)-3515d
zCU%__Ny(V1=l1LyKw?r%jw`DM$D>8%UJ)u{QZN}ab5Z*T@*rv$<-#mJZ<Pdc(6Uy<
zf*?ng$H`HZ_pJ(slF-1odl2F(srFbw=uam`gPx$lhYuD9lhKJIJ&+zX`LCnJke<bF
z$4aCm^egtJ9f=~vt+GpiQlN}g*`Y9WB3H9ROtZ_SxJGlX9}MJ+aNdF3IW*06>~iMV
zVTjk=Zad7n?T7?DYFswq9<U=o1rTKi>{tZe>Ipl>PS}+}!5SB3%bn^9_p)8dF5B@^
z=u7S`JI-#|lO$+OEaTKf5p|25Nx)>_NmlGsg`o+#bxswlbEZgfed1j_l%8(5P0ke7
z<Wxsc!d>lDv(-*b5Sinmmb=5L0cwG%Y==`9hW6tgcIwz+XPOi@Cf>+HqK4|8ai*~|
z&UA>U?x-`JjXL!b^d<MEQxD7lW&#bsET9pX4a@<a0%Sk|RDc5BJ{>TC1YiOdFc+8y
XJPkYpJPXVRlE4CBA;0M?8r%0jLx>xa

delta 1701
zcmZvbTWl0%6vzF(mNV03wp(_$m)#=eQZ5!OGxN<A6;{9(QbALQy0Zm|QfZBpmR6<F
zq|wSiAO(c@X-OK47eo^yK5!Bru!@pkcmWAesQTcO(Fa2!2uAeGc54*b<hT3H+5h~{
z<;xkovX_rv+{;rcB$ch(d%Jp`+MF#jn%yNQFCI&6XIvKthS*N7y9erc3)j6@+j-c|
z84>-K5#_`bZ08^z<+?8qwZaUh<7chV%D7?4#5!o<hK+6O;B*x?99+;2)hah!T($+u
zN#fx{UGOj+e0gvyY-74qyWu7?u&f6LS*_>9$_>+VlhL=GRabOvd42<Fk9`A=Y5Xu#
zV)aFVjjR`rXw1Z;15pA~;ONdMfob8XT~PwlmesqVhntSvwHt15)5XC(#T0(z;OoT{
zUMYnz{+GhTSBBt(#!U~GAA%an;bZ<C07m_8d>0;J%#feH2ffUc^WTS?TnL<V1VUD0
z7X3x!?;9n5OWf}78#w1EY>abZ;f~{wQMs`3?GrGCapB+xpTinDxbns*Y~#X{TfT@=
z_}KX+yv7oyZx@p|#Uz%zbrL$tOy9!Jui$Hq3e?ZSB9*4vHU=q1Q|i79Pclwbe0v49
zbIZcj<DgQ&#>c;dHzPx@Xy_LWUHRAdMMD>#{Q(-|+;VXLFYvO;Ef=ePBTH_1IQLr7
z)0g3O=%<|gcc`GDpmqa>S*<~SLO01z=z3`it}kSF8?;R+2C?A}Ku*P7{1aYMxh-%V
zC`ra`3p*5LJsoU$T2)@;wu37w6ompVw#1Ydcy4x7tQVP^p2$vZ?e5#OsejW3&vRxg
zrH5E!Q6rMj)z`bVua{IE&pg-F@ieJi`B9~^kb4eZs#Fp=?z#BWYK6M;e7v<rsmf6|
ziG4~snq1?4r7}me6=<KO2%YS(<(wj0&Z!A{aB%%OHO=Ydg?;B$*>}Do3i}wIuc+b7
z2uChd$dL=NX=L@ug;<<7>tdD4?wa^CrBzm?ERV+Fu2Rb<ql?t?Qq+?_Uy3y?(fw7?
zpSh;WDi)~?z4ZLg`-b(e_ou6T;(f!GYsO-;qDAZ(izP>+Mcnb$R4rF$cqNB@15C}S
zxstDsAC65;Mg5=1XmOI2RQm_YNHxkPWTuHfKB18vt=;uZoa{{NPIjh^_4#-*M@xu{
zhe?+)-8&n4xb|{9GW2otaAiDKJK5lW$`c0exm-!*nRqyx&~mhM^5cA>hIS}Cl}`{=
z#58#-pG?y_h2#089M7k;tZ+(cUmqw}so{ZABf<@Nkdiz|limyKg0!p)sx?})$hVg1
z;nJX*s3B_Q(x9%IZgg!>C)Wm<c*eZ5sU^bxAS3&OZ2FBL1>wOUD-Q<sv^@5Ns}mj%
z>WS&Z-ST)aBTai1o(X2iGeLuvwI;9Twqh+myc#sftHI1_DoicRlxksCoEdT?sIO&a
z*j$)J%qHf@=0andHY!|MXp}1pbG58Jc|o_C+IHAkm@7LA^V0IypaH_c!aO-xm{0rY
zhC_w<!~)_TqKQ~YEF$hDnu*1PP8ftq2*M(4!XY9LkMM~l#C^p5!~?`qVi}Pm9we6I
KP+`TjeSZTW%*JB?

diff --git a/utils.py b/utils.py
index ff2c982..bff6a3d 100644
--- a/utils.py
+++ b/utils.py
@@ -66,7 +66,6 @@ def get_speech_ts(wav: torch.Tensor,
     step = int(num_samples / num_steps)  # stride / hop
     outs = []
     to_concat = []
-
     for i in range(0, len(wav), step):
         chunk = wav[i: i+num_samples]
         if len(chunk) < num_samples:

From 02e9da821a2b254d9efa83d37637785a0a9e0c16 Mon Sep 17 00:00:00 2001
From: Dimitrii Voronin <36505480+adamnsandle@users.noreply.github.com>
Date: Mon, 11 Jan 2021 14:35:22 +0200
Subject: [PATCH 3/4] Update README.md

---
 README.md | 155 ++++++++++++++++++++++++++++++++++++++++++++++++------
 1 file changed, 140 insertions(+), 15 deletions(-)

diff --git a/README.md b/README.md
index 7d2521e..79b345f 100644
--- a/README.md
+++ b/README.md
@@ -57,9 +57,9 @@ The models are small enough to be included directly into this repository. Newer
 
 Currently we provide the following functionality:
 
-| PyTorch           | ONNX               | VAD                 | Number Detector | Language Clf | Languages              | Colab |
-|-------------------|--------------------|---------------------|-----------------|--------------|------------------------|-------| 
-| :heavy_check_mark:| :heavy_check_mark: | :heavy_check_mark:  |                 |              | `ru`, `en`, `de`, `es` | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snakers4/silero-vad/blob/master/silero-vad.ipynb) |
+| PyTorch           | ONNX               | VAD                 | Number Detector    | Language Clf       | Languages              | Colab |
+|-------------------|--------------------|---------------------|--------------------|--------------------|------------------------|-------| 
+| :heavy_check_mark:| :heavy_check_mark: | :heavy_check_mark:  | :heavy_check_mark: | :heavy_check_mark: | `ru`, `en`, `de`, `es` | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snakers4/silero-vad/blob/master/silero-vad.ipynb) |
 
 **Version history:**
 
@@ -67,13 +67,17 @@ Currently we provide the following functionality:
 |---------|-------------|---------------------------------------------------|
 | `v1`    | 2020-12-15  | Initial release                                               |
 | `v1.1`  | 2020-12-24  | better vad models compatible with chunks shorter than 250 ms
-| `v2`    | coming soon | Add Number Detector and Language Classifier heads |
+| `v1.2`  | 2020-12-30  | Number Detector added
+| `v2`    | 2021-01-11  | Add Language Classifier heads |
 
 ### PyTorch
 
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snakers4/silero-vad/blob/master/silero-vad.ipynb)
 
 [![Open on Torch Hub](https://img.shields.io/badge/Torch-Hub-red?logo=pytorch&style=for-the-badge)](https://pytorch.org/hub/snakers4_silero-vad/) (coming soon)
+
+#### VAD
+
 ```python
 import torch
 torch.set_num_threads(1)
@@ -96,12 +100,63 @@ speech_timestamps = get_speech_ts(wav, model,
                                   num_steps=4)
 pprint(speech_timestamps)
 ```
+
+#### Number Detector
+
+```python
+import torch
+torch.set_num_threads(1)
+from pprint import pprint
+
+model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                              model='silero_number_detector',
+                              force_reload=True)
+
+(get_number_ts,
+ _, read_audio,
+ _, _) = utils
+
+files_dir = torch.hub.get_dir() + '/snakers4_silero-vad_master/files'
+
+wav = read_audio(f'{files_dir}/en_num.wav')
+# full audio
+# get number timestamps from full audio file
+number_timestamps = get_number_ts(wav, model)
+
+pprint(number_timestamps)
+```
+
+### Language Classifier
+
+```python
+import torch
+torch.set_num_threads(1)
+from pprint import pprint
+
+model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                              model='silero_lang_detector',
+                              force_reload=True)
+
+get_language, read_audio = utils
+
+files_dir = torch.hub.get_dir() + '/snakers4_silero-vad_master/files'
+
+wav = read_audio(f'{files_dir}/de.wav')
+language = get_language(wav, model)
+
+pprint(language)
+```
+
 ### ONNX
 
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snakers4/silero-vad/blob/master/silero-vad.ipynb)
 
-You can run our model everywhere, where you can import the ONNX model or run ONNX runtime.
+You can run our models everywhere, where you can import the ONNX model or run ONNX runtime.
+
+#### VAD
+
 ```python
+import torch
 import onnxruntime
 from pprint import pprint
 
@@ -133,6 +188,72 @@ speech_timestamps = get_speech_ts(wav, model, num_steps=4, run_function=validate
 pprint(speech_timestamps)
 ```
 
+#### Number Detector
+
+```python
+import torch
+import onnxruntime
+from pprint import pprint
+
+model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                              model='silero_number_detector',
+                              force_reload=True)
+
+(get_number_ts,
+ _, read_audio,
+ _, _) = utils
+
+files_dir = torch.hub.get_dir() + '/snakers4_silero-vad_master/files'
+
+def init_onnx_model(model_path: str):
+    return onnxruntime.InferenceSession(model_path)
+
+def validate_onnx(model, inputs):
+    with torch.no_grad():
+        ort_inputs = {'input': inputs.cpu().numpy()}
+        outs = model.run(None, ort_inputs)
+        outs = [torch.Tensor(x) for x in outs]
+    return outs
+    
+model = init_onnx_model(f'{files_dir}/number_detector.onnx')
+wav = read_audio(f'{files_dir}/en_num.wav')
+
+# get speech timestamps from full audio file
+number_timestamps = get_number_ts(wav, model, run_function=validate_onnx) 
+pprint(number_timestamps)
+```
+
+### Language Classifier
+
+```python
+import torch
+import onnxruntime
+from pprint import pprint
+
+model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                              model='silero_lang_detector',
+                              force_reload=True)
+                              
+get_language, read_audio = utils
+
+files_dir = torch.hub.get_dir() + '/snakers4_silero-vad_master/files'
+
+def init_onnx_model(model_path: str):
+    return onnxruntime.InferenceSession(model_path)
+
+def validate_onnx(model, inputs):
+    with torch.no_grad():
+        ort_inputs = {'input': inputs.cpu().numpy()}
+        outs = model.run(None, ort_inputs)
+        outs = [torch.Tensor(x) for x in outs]
+    return outs
+    
+model = init_onnx_model(f'{files_dir}/number_detector.onnx')
+wav = read_audio(f'{files_dir}/de.wav')
+
+language = get_language(wav, model, run_function=validate_onnx)
+print(language)
+```
 ## Metrics
 
 ### Performance Metrics
@@ -184,7 +305,7 @@ So **batch size** for streaming is **num_steps * number of audio streams**. Time
 
 We use random 250 ms audio chunks for validation. Speech to non-speech ratio among chunks is about ~50/50 (i.e. balanced). Speech chunks are sampled from real audios in four different languages (English, Russian, Spanish, German), then random background noise is added to some of them (~40%). 
 
-Since our VAD (only VAD, other networks are more flexible) was trained on chunks of the same length, model's output is just one float from 0 to 1 - **speech probability**. We use speech probabilities as thresholds for precision-recall curve. This can be extended to 100 - 150 ms (coming soon). Less than 100 - 150 ms cannot be distinguished as speech with confidence.
+Since our VAD (only VAD, other networks are more flexible) was trained on chunks of the same length, model's output is just one float from 0 to 1 - **speech probability**. We use speech probabilities as thresholds for precision-recall curve. This can be extended to 100 - 150 ms. Less than 100 - 150 ms cannot be distinguished as speech with confidence.
 
 [Webrtc](https://github.com/wiseman/py-webrtcvad) splits audio into frames, each frame has corresponding number (0 **or** 1). We use 30ms frames for webrtc, so each 250 ms chunk is split into 8 frames, their **mean** value is used as a treshold for plot.
 
@@ -192,20 +313,23 @@ Since our VAD (only VAD, other networks are more flexible) was trained on chunks
 
 ## FAQ
 
-### Method' argument to use for VAD quality/speed tuning
-- `trig_sum` - overlapping windows are used for each audio chunk, trig sum defines average probability among those windows for switching into triggered state (speech state)
-- `neg_trig_sum` - same as `trig_sum`, but for switching from triggered to non-triggered state (no speech)
-- `num_steps` - nubmer of overlapping windows to split audio chunk by (we recommend 4 or 8)
-- `num_samples_per_window` - number of samples in each window, our models were trained using `4000` samples (250 ms) per window, so this is preferable value (lesser reduces quality)
+### VAD Parameter Fine Tuning
+
+- Among others, we provide several [utils](https://github.com/snakers4/silero-vad/blob/8b28767292b424e3e505c55f15cd3c4b91e4804b/utils.py#L52-L59) to simplify working with VAD;
+- We provide sensible basic hyper-parameters that work for us, but your case can be different;
+- `trig_sum` - overlapping windows are used for each audio chunk, trig sum defines average probability among those windows for switching into triggered state (speech state);
+- `neg_trig_sum` - same as `trig_sum`, but for switching from triggered to non-triggered state (non-speech)
+- `num_steps` - nubmer of overlapping windows to split audio chunk into (we recommend 4 or 8)
+- `num_samples_per_window` - number of samples in each window, our models were trained using `4000` samples (250 ms) per window, so this is preferable value (lesser values reduce [quality](https://github.com/snakers4/silero-vad/issues/2#issuecomment-750840434));
 
 ### How VAD Works
 
-- Audio is split into 250 ms chunks;
+- Audio is split into 250 ms chunks (you can choose any chunk size, but quality with chunks shorter than 100ms will suffer and there will be more false positives and "unnatural" pauses);
 - VAD keeps record of a previous chunk (or zeros at the beginning of the stream);
 - Then this 500 ms audio (250 ms + 250 ms) is split into N (typically 4 or 8) windows and the model is applied to this window batch. Each window is 250 ms long (naturally, windows overlap);
 - Then probability is averaged across these windows;
 - Though typically pauses in speech are 300 ms+ or longer (pauses less than 200-300ms are typically not meaninful), it is hard to confidently classify speech vs noise / music on very short chunks (i.e. 30 - 50ms);
-- We are working on lifting this limitation, so that you can use 100 - 125ms windows;
+- ~~We are working on lifting this limitation, so that you can use 100 - 125ms windows~~;
 
 ### VAD Quality Metrics Methodology
 
@@ -213,7 +337,9 @@ Please see [Quality Metrics](#quality-metrics)
 
 ### How Number Detector Works
 
-TBD, but there is no explicit limiation on the way audio is split into chunks.
+- It is recommended to split long audio into short ones (< 15s) and apply model on each of them;
+- Number Detector can classify if whole audio contains a number, or if each audio frame contains a number;
+- Audio is splitted into frames in a certain way, so, having a per-frame output, we can restore timing bounds for a numbers with an accuracy of about 0.2s;
 
 ### How Language Classifier Works
 
@@ -222,7 +348,6 @@ TBD, but there is no explicit limiation on the way audio is split into chunks.
 - More languages TBD
 - Arbitrary audio length can be used, although network was trained using audio shorter than 15 seconds
 
-
 ## Contact
 
 ### Get in Touch

From 9a60b3a31865bb19837c0589a91fcbd03e9345f6 Mon Sep 17 00:00:00 2001
From: Dimitrii Voronin <36505480+adamnsandle@users.noreply.github.com>
Date: Mon, 11 Jan 2021 14:46:19 +0200
Subject: [PATCH 4/4] Update README.md

---
 README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/README.md b/README.md
index 79b345f..ea42fe0 100644
--- a/README.md
+++ b/README.md
@@ -68,7 +68,7 @@ Currently we provide the following functionality:
 | `v1`    | 2020-12-15  | Initial release                                               |
 | `v1.1`  | 2020-12-24  | better vad models compatible with chunks shorter than 250 ms
 | `v1.2`  | 2020-12-30  | Number Detector added
-| `v2`    | 2021-01-11  | Add Language Classifier heads |
+| `v2`    | 2021-01-11  | Add Language Classifier heads (en, ru, de, es) |
 
 ### PyTorch