روشی برای بهبود تشخيص گفتار

پژوهشگران ایرانی موفق به ساخت دستگاه هوشمندی انجام گرفتند که قادر خواهد بود از نوع گفتار افراد احساسات آن ها را ارزیابی کند.در این تحقیق میزان ادراک خانومان و آقاان و واکنش آن ها نسبت به این سیستم نیز مورد آزمایش قرار گرفته هست.
تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستم‌های تعاملي انسان و ماشين دارد.به‌طور مثال چنین فرایندی می‌تواند عملكرد سیستم‌های تشخيص گفتار را بهبود بخانجام گرفت. این فرایند همچنين در زمينه تعلیم، گیم‌های كامپيوتري، پزشكي، روانشناسي و خودروهاي هوشمند كاربردهاي متنوعي دارد.

به نقل کرد دانشمندان، اغلب ویژگی‌هایی كه براي بازشناسي احساس از روي گفتار به كار گرفته می‌شوند، می‌توانند در دو گروه «ویژگی‌های عروضي» و «ویژگی‌های طيفي» دسته‌بندی شوند. ویژگی‌های عروضي، بيشتر با لحن و ريتم گفتار در ارتباط هستند. اين ویژگی‌ها معمولاً از مشخصات آماري مربوط به منحنی‌های فركانس گام و انرژي صدا محاسبه می‌شوند و با دربرداشتن هشدارات حیاتی احساسي، پركاربردترين ویژگی‌های اين حوزه به شمار می‌آیند. ولی ویژگی‌های طيفي كه از طيف سيگنال به دست می‌آیند در سال‌های اخير جايگاه ویژه‌ای پيدا کـــرده‌اند. اين ویژگی‌ها به‌عنوان مكمل ویژگی‌های عروضي نقش به سزايي در افزايش راندمان تشخيص احساس از روي گفتار داشته‌اند.

تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستم‌های تعاملي انسان و ماشين دارد، به‌طور مثال چنین فرایندی می‌تواند عملكرد سیستم‌های تشخيص گفتار را بهبود بخانجام گرفت.

به تازگی محققینی از دانشگاه آزاد اسلامی واحد شاهرود، دانشگاه صنعتی شاهرود و دانشگاه سمنان، پژوهشی را به انجام رسانده‌اند که در آن سعی انجام گرفته با هستفاده از ویژگی‌های ديناميكي سیگنال صوتی صدای افراد به‌عنوان مکملی برای ویژگی‌های عروضی و طیفی، سیستمی طراحی شود تا بتواند احساس‌های عصبانيت، خوشحالي و همچنين خستگي را از احساس عادي افراد مجزا نموده و تشخیص دهد.

بدین منظور، محققین صداهای هستخراج‌انجام گرفته از خانومان و آقاان مختلف را با صداهای موجود در پايگاه داده احساسي آلماني برلين، مورد مقایسه علمی قرار داده‌اند. این پایگاه داده، شامل ۵۳۵ جمله با ۱۰ محتواي مختلف هست كه توسط ۱۰گوينده ( ۵ خانوم و ۵ آقا) در ۷ احساس مختلف بيان انجام گرفته‌اند. پايگاه داده‌ای فوق، به‌صورت رايگان از طريق اينترنت در اختيار عموم قرار دارد.

نتايج این مطالعه نشان داد که متوسط نرخ تشخيص احساس افراد در این سیستم، برای خانومان افزایش از آقاان بوده هست. به نقل کرد محققین، سیستم فوق توانست حدود ۹۶ درصد از موارد مربوط به احساسات خانومان و ۸۷ درصد از احساسات آقاان را به‌درستی تشخیص دهد.

به نقل کرد محققین فوق، نرخ تشخيص بيشتر خانومان نسبت به آقاان، به دليل ادراك و بروز بيشتر احساسات توسط خانومان در گفتار معمول خود هست. بااین‌حال، طبق نتایج حاصله، با در نظر گرفتن ۳۰۱ جمله خانومان و ۲۳۴ جمله آقاان، متوسط نرخ تشخيص کلی افراد، حدود ۹۲ درصد ارزیابی انجام گرفت.

حریمی و همکاران با اشاره به نتایج به‌دست‌آمده از پژوهش خود نقل کرد‌اند: بر اساس نتايج آزمایش‌های ما، ویژگی‌های ديناميكي غیرخطی مربوط به صدا، حاوي هشدارات حیاتیي از سطح جاذبه گفتار هستند.

به نقل کرد این محققین، نتايج قابل توجهی از اين مقاله علمی قابل هستحصال هست: نخست این‌که سیستم تشخیصی فوق که اصطلاحا «منحنی فضاي فاز بازسازی‌انجام گرفته» نام دارد، ارتباط حیاتیي با احساس گفتار دارد، لذا به نظر می‌رسد این منحني، منبع نیکوي براي هستخراج ویژگی‌های مرتبط با احساس افراد باانجام گرفت. دوم این‌که ویژگی‌های متدنخست عروضي و طيفي صدا براي جداسازي احساس‌ها بر اساس «سطح برانگيختگي» معقول آن کاربرد دارند. حال‌آنکه اين ویژگی‌ها براي جداسازي احساس‌های با سطح برانگيختگي يكسان از كارايي لازم برخوردار نيستند. و بالاخره سوم این‌که، ویژگی‌های مستخرج از منحنی‌های مورداشاره، براي طبقه‌بندی احساس‌های عصبانيت، خوشحالي، خستگي و عادي كارآمد هستند.

گفتنی هست نتایج این تحقیق در ﻣﺠﻠﻪ “مهندسی برق و مهندسی کامپیوتر ایران” وابسته به پژوهشكده برق جهاد دانشگاهي منتشر انجام گرفته هست.

منبع/شفاآنلاین

نوشته روشی برای بهبود تشخيص گفتار اولین بار در پرتال تعاون پدیدار شد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد.