<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Oct 16, 2013 at 6:51 PM, Philipp Überbacher <span dir="ltr"><<a href="mailto:murks@tuxfamily.org" target="_blank">murks@tuxfamily.org</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
I was hoping for something that requires less DSP knowledge.<br></blockquote><div>I think we all do... note although I dabble in DSP, I won't claim to "know" DSP...<br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">

However given that those low-level tools are available,<br>
hints on how to combine them or on possibly useful algorithms etc.<br>
would be appreciated as well.<br></blockquote><div><br></div><div>Of the three catagories you mentioned (speech, music, noise), speech is probably the easiest to find...<br></div><div>FFT the whole track (windows of... 8192 or so perhaps), then check for frequency content in the speech range[1]: 300 - 3.400 Hz. <br>
</div><div>If the content is steadily within those frequency ranges (allowing for some FFT windowing error), the that should be ok.<br><br></div><div>Music (depending on type) is generally rythmical, so transients should be present, and somewhat evenly spaced. Easier to detect if the music hasn't been compressed to a brick-wall.<br>
</div><div>Noise (depending on type) is generally *not* rythmical, so transients should be present but not evenly spaced... <br></div><div><br></div><div>The above is a suggestion only: I don't know is it the best way to go. Depending on the content, you'll have some success with the above approach.<br>
</div><div>Advice on "music-information-retrieval" or content analysis is probably better on the Music-DSP mailing list, perhaps ask there?<br><br></div><div>HTH, -Harry<br></div><div><br>[1]: Voice frequencies, <a href="http://en.wikipedia.org/wiki/Voice_frequency">http://en.wikipedia.org/wiki/Voice_frequency</a><br>
</div></div></div></div>