فارسي
عنوان: شبکه های عصبی کانولوشنی برای تشخیص صدا | |
چکيده—
اخیرا نشان داده شده است که استفاده از ترکیب دوگانه شبکه عصبی عمیق (DNN) و مدل پنهان مارکف (HMM) ، عملکرد تشخیص صدا را در مقایسه با مدل ترکیبی مرسوم GMM-HMM (مدل مخلوط گاوسی-مدل پنهان مارکف) به صورت قابل ملاحظه ای ارتقاء می بخشد. بهبود عملکرد تا حدودی به قابلیت شبکه DNN جهت مدلسازی ارتباطات پیچیده میان خصیصه های صدا، مرتبط می باشد. در این مقاله نشان می دهیم که با استفاده از شبکه های عصبی کانولوشنی (CNNs) می توان نرخ خطا را تا حد بیشتری کاهش داد. ما ابتدا توصیف مختصری از مبانی شبکه CNN را ارائه نموده و سپس چگونگی استفاده از این شبکه را جهت تشخیص صدا، توضیح می دهیم. در ادامه یک الگوی تسهیم وزنی محدود را پیشنهاد می نماییم که می تواند خصیصه های صدا را به صورت بهتری مدلسازی نماید. ساختار خاص موجود در شبکه های CNNs، به عنوان مثال ویژگی های اتصال موضعی، تسهیم وزن، و ادغام، درجه ای از تغییرناپذیری تا تغییرات کوچک خصیصه های صدا را در امتداد محور فرکانس نشان می دهد که توجه به این موارد در بررسی تغییرات محیط و گوینده مهم می باشد. نتایج تجربی نشان می دهند که در فرآیند های تشخیص صدا شامل تشخیص صوت در پایگاه داده TIMIT (Texas Instruments and Massachusetts Institute of Technology) و تشخیص جستجوی صدای لغات بزرگ، استفاده از شبکه های CNNs در مقایسه با شبکه های DNNs، نرخ خطا را به میزان 6 تا 10 درصد کاهش می دهد.
کلمات کليدي -کانولوشن، شبکه های عصبی کانولوشنی، الگوی تسهیم وزنی محدود، ادغام |
|
توضيح
تماس
|
English