ចំនួនកម្មវិធី និងសារៈសំខាន់នៃចំណុចប្រទាក់សំឡេងកំពុងកើនឡើងយ៉ាងឆាប់រហ័ស

មាតិកា

ធំបួន
ជនជាតិអាមេរិកចង់ទិញ
លាង, ដុតនំ, ស្អាត!
គំនិតចាស់។ តើពេលវេលារបស់នាងមកដល់ហើយឬនៅ?
សំណួរបច្ចេកទេសពិបាក
សំឡេង? សិល្បៈក្រាហ្វិក? ឬប្រហែលជាទាំងពីរ?
ប្រយ័ត្នសុវត្ថិភាព!

គ្រួសារជនជាតិអាមេរិកមួយនៅទីក្រុង Portland រដ្ឋ Oregon ថ្មីៗនេះបានដឹងថា ជំនួយការសំឡេងរបស់ Alex បានកត់ត្រាការជជែកឯកជនរបស់ពួកគេ ហើយផ្ញើពួកគេទៅមិត្តភ័ក្តិ។ ម្ចាស់ផ្ទះដែលត្រូវបានគេដាក់ឈ្មោះថា Danielle ដោយប្រព័ន្ធផ្សព្វផ្សាយបានប្រាប់អ្នកយកព័ត៌មានថានាងនឹង "មិនដោតឧបករណ៍នោះម្តងទៀតទេព្រោះនាងមិនអាចជឿទុកចិត្តបាន" ។

វេដែលផ្តល់ដោយឧបករណ៍បំពងសំឡេងអេកូ (1) និងឧបករណ៍ផ្សេងទៀតនៅក្នុងគេហដ្ឋានរាប់សិបលាននៃសហរដ្ឋអាមេរិក ចាប់ផ្តើមថតនៅពេលដែលវាឮឈ្មោះរបស់វា ឬ "ពាក្យហៅ" ដែលនិយាយដោយអ្នកប្រើប្រាស់។ នេះមានន័យថា ទោះបីជាពាក្យ "Alexa" ត្រូវបានលើកឡើងនៅក្នុងការផ្សាយពាណិជ្ជកម្មតាមទូរទស្សន៍ក៏ដោយ ឧបករណ៍អាចចាប់ផ្តើមថត។ Amazon ដែលជាអ្នកចែកចាយ Hardware បាននិយាយថា នោះជាអ្វីដែលបានកើតឡើងក្នុងករណីនេះ។

ក្រុមហ៊ុនបាននិយាយនៅក្នុងសេចក្តីថ្លែងការណ៍មួយថា "ការសន្ទនាដែលនៅសល់ត្រូវបានបកស្រាយដោយជំនួយការសំឡេងជាពាក្យបញ្ជាដើម្បីផ្ញើសារ" ។ "នៅចំណុចខ្លះ Alexa បានសួរយ៉ាងខ្លាំងថា "ទៅអ្នកណា?" ការបន្តនៃការសន្ទនាជាលក្ខណៈគ្រួសារអំពីកម្រាលឈើរឹងគួរត្រូវបានម៉ាស៊ីនយល់ថាជាធាតុមួយនៅក្នុងបញ្ជីទំនាក់ទំនងរបស់អតិថិជន។ យ៉ាងហោចណាស់នោះជាអ្វីដែល Amazon គិត។ ដូច្នេះការបកប្រែត្រូវបានកាត់បន្ថយទៅជាស៊េរីនៃគ្រោះថ្នាក់។

ទោះជាយ៉ាងណាក៏ដោយការថប់បារម្ភនៅតែមាន។ ដោយសារតែហេតុផលមួយចំនួន នៅក្នុងផ្ទះដែលយើងនៅតែមានអារម្មណ៍ស្រួល យើងត្រូវបញ្ចូលប្រភេទនៃ "របៀបសំឡេង" មើលអ្វីដែលយើងនិយាយ អ្វីដែលទូរទស្សន៍កំពុងចាក់ផ្សាយ ហើយជាការពិតណាស់ អ្វីដែលវាគ្មិនថ្មីនេះនៅលើទ្រូងរបស់ drawers និយាយ។ ពួកយើង។

ទោះយ៉ាងណាក៏ដោយ ទោះបីជាមានភាពមិនល្អឥតខ្ចោះផ្នែកបច្ចេកវិទ្យា និងការព្រួយបារម្ភអំពីឯកជនភាពក៏ដោយ ជាមួយនឹងការកើនឡើងនៃប្រជាប្រិយភាពនៃឧបករណ៍ដូចជា Amazon Echo មនុស្សចាប់ផ្តើមស៊ាំនឹងគំនិតនៃការប្រាស្រ័យទាក់ទងជាមួយកុំព្យូទ័រដោយប្រើសំឡេងរបស់ពួកគេ។.

ដូចដែល Werner Vogels ដែលជា CTO នៃ Amazon បានកត់សម្គាល់ក្នុងអំឡុងពេល AWS re:Invent session របស់គាត់នៅចុងឆ្នាំ 2017 មកទល់ពេលនេះ បច្ចេកវិទ្យាបានកំណត់សមត្ថភាពរបស់យើងក្នុងការធ្វើអន្តរកម្មជាមួយកុំព្យូទ័រ។ យើងវាយពាក្យគន្លឹះទៅក្នុង Google ដោយប្រើក្តារចុច ព្រោះនេះនៅតែជាវិធីសាមញ្ញ និងងាយស្រួលបំផុតក្នុងការបញ្ចូលព័ត៌មានទៅក្នុងម៉ាស៊ីន។

Vogels បាននិយាយ។ -

ធំបួន

នៅពេលប្រើម៉ាស៊ីនស្វែងរក Google នៅលើទូរសព្ទ យើងប្រហែលជាបានកត់សម្គាល់ឃើញសញ្ញាមីក្រូហ្វូនដែលមានការហៅទូរសព្ទដើម្បីនិយាយតាំងពីយូរយារណាស់មកហើយ។ នេះ។ Google ឥឡូវនេះ (2) ដែលអាចកំណត់សំណួរស្វែងរក បញ្ចូលសារដោយសំឡេង។ល។ ក្នុងរយៈពេលប៉ុន្មានឆ្នាំថ្មីៗនេះ Google, Apple និង Amazon មានភាពប្រសើរឡើងយ៉ាងខ្លាំង។ បច្ចេកវិទ្យាសម្គាល់សំឡេង. ជំនួយការសំឡេងដូចជា Alexa, Siri និង Google Assistant មិនត្រឹមតែថតសំឡេងរបស់អ្នកប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងយល់ពីអ្វីដែលអ្នកនិយាយទៅកាន់ពួកគេ និងឆ្លើយសំណួរផងដែរ។

Google Now អាចរកបានដោយឥតគិតថ្លៃសម្រាប់អ្នកប្រើប្រាស់ Android ទាំងអស់។ ជាឧទាហរណ៍ កម្មវិធីអាចកំណត់សំឡេងរោទិ៍ ពិនិត្យមើលការព្យាករណ៍អាកាសធាតុ និងពិនិត្យមើលផ្លូវនៅលើផែនទី Google ។ ផ្នែកបន្ថែមនៃការសន្ទនារបស់ Google Now បញ្ជាក់ ជំនួយការ Google () - ជំនួយនិម្មិតដល់អ្នកប្រើប្រាស់ឧបករណ៍។ វាអាចប្រើបានជាចម្បងនៅលើឧបករណ៍ចល័ត និងផ្ទះឆ្លាតវៃ។ មិនដូច Google Now ទេ វាអាចចូលរួមក្នុងការផ្លាស់ប្តូរពីរផ្លូវ។ ជំនួយការនេះបានបង្ហាញខ្លួនក្នុងខែឧសភា ឆ្នាំ 2016 ជាផ្នែកនៃកម្មវិធីផ្ញើសារ Google Allo ក៏ដូចជានៅក្នុងឧបករណ៍បំពងសំឡេង Google Home (3)។

3. Google Home

ប្រព័ន្ធ IOS ក៏មានជំនួយការនិម្មិតផ្ទាល់ខ្លួនផងដែរ កម្មវិធី Siriដែលជាកម្មវិធីរួមបញ្ចូលជាមួយប្រព័ន្ធប្រតិបត្តិការរបស់ Apple ដូចជា iOS, watchOS, tvOS homepod និង macOS ។ Siri បានបង្ហាញខ្លួនជាលើកដំបូងជាមួយ iOS 5 និង iPhone 4s ក្នុងខែតុលា ឆ្នាំ 2011 ក្នុងសន្និសីទ Let's Talk iPhone ។

កម្មវិធីនេះផ្អែកលើចំណុចប្រទាក់សន្ទនា៖ វាទទួលស្គាល់ការនិយាយធម្មជាតិរបស់អ្នកប្រើ (ជាមួយ iOS 11 វាក៏អាចបញ្ចូលពាក្យបញ្ជាដោយដៃ) ឆ្លើយសំណួរ និងបញ្ចប់កិច្ចការ។ សូមអរគុណចំពោះការណែនាំអំពីការរៀនម៉ាស៊ីន ដែលជាជំនួយការតាមពេលវេលា វិភាគចំណូលចិត្តផ្ទាល់ខ្លួន អ្នកប្រើប្រាស់ដើម្បីផ្តល់នូវលទ្ធផល និងការណែនាំដែលពាក់ព័ន្ធបន្ថែមទៀត។ Siri ទាមទារការតភ្ជាប់អ៊ីធឺណិតថេរ - ប្រភពព័ត៌មានសំខាន់ៗនៅទីនេះគឺ Bing និង Wolfram Alpha ។ iOS 10 បានណែនាំការគាំទ្រសម្រាប់ផ្នែកបន្ថែមភាគីទីបី។

មួយទៀតក្នុងចំណោមបួនធំ Cortana. វាគឺជាជំនួយការផ្ទាល់ខ្លួនដ៏ឆ្លាតវៃដែលបង្កើតឡើងដោយក្រុមហ៊ុន Microsoft ។ វាត្រូវបានគាំទ្រនៅលើ Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, ប្រព័ន្ធប្រតិបត្តិការ Android និងប្រព័ន្ធប្រតិបត្តិការ iOS ។ Cortana ត្រូវបានណែនាំជាលើកដំបូងនៅក្នុងសន្និសិទ Microsoft Build Developer Conference នៅខែមេសា 2014 នៅ San Francisco ។ ឈ្មោះកម្មវិធីបានមកពីឈ្មោះតួអង្គមួយពីស៊េរីហ្គេម Halo ។ Cortana មានជាភាសាអង់គ្លេស អ៊ីតាលី អេស្ប៉ាញ បារាំង អាល្លឺម៉ង់ ចិន និងជប៉ុន។

អ្នកប្រើប្រាស់កម្មវិធីដែលបានរៀបរាប់រួចហើយ វេ ពួកគេក៏ត្រូវពិចារណាលើការរឹតបន្តឹងភាសាផងដែរ - ជំនួយការឌីជីថលនិយាយតែភាសាអង់គ្លេស អាឡឺម៉ង់ បារាំង និងជប៉ុនប៉ុណ្ណោះ។

ជំនួយការនិម្មិត Amazon ត្រូវបានប្រើជាលើកដំបូងនៅក្នុងឧបករណ៍បំពងសំឡេងឆ្លាតវៃ Amazon Echo និង Amazon Echo Dot ដែលបង្កើតឡើងដោយ Amazon Lab126 ។ វាបើកដំណើរការអន្តរកម្មជាសំឡេង ការចាក់តន្ត្រី ការបង្កើតបញ្ជីការងារត្រូវធ្វើ ការកំណត់ម៉ោងរោទិ៍ ការចាក់ផ្សាយផតខាស ការចាក់សៀវភៅអូឌីយ៉ូ និងពេលវេលាជាក់ស្តែង ចរាចរណ៍ កីឡា និងព័ត៌មានផ្សេងទៀតដូចជាព័ត៌មាន (4) ។ Alexa អាចគ្រប់គ្រងឧបករណ៍ឆ្លាតវៃជាច្រើនដើម្បីបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅផ្ទះ។ វាក៏អាចត្រូវបានប្រើដើម្បីធ្វើឱ្យការទិញទំនិញងាយស្រួលនៅក្នុងហាង Amazon ។

4. អ្វីដែលអ្នកប្រើប្រាស់ប្រើអេកូសម្រាប់ (យោងតាមការស្រាវជ្រាវ)

អ្នកប្រើប្រាស់អាចបង្កើនបទពិសោធន៍ Alexa ដោយដំឡើង Alexa "skills" () មុខងារបន្ថែមដែលត្រូវបានបង្កើតឡើងដោយភាគីទីបី ដែលជាទូទៅគេហៅថាកម្មវិធីដូចជាអាកាសធាតុ និងកម្មវិធីអូឌីយ៉ូនៅក្នុងការកំណត់ផ្សេងទៀត។ ឧបករណ៍ Alexa ភាគច្រើនអនុញ្ញាតឱ្យអ្នកធ្វើឱ្យជំនួយការនិម្មិតរបស់អ្នកសកម្មជាមួយនឹងពាក្យសម្ងាត់ដាស់ឱ្យភ្ញាក់ ហៅថា .

Amazon ប្រាកដជាគ្រប់គ្រងទីផ្សារឧបករណ៍បំពងសំឡេងឆ្លាតវៃសព្វថ្ងៃ (5)។ ក្រុមហ៊ុន IBM ដែលបានណែនាំសេវាកម្មថ្មីនៅក្នុងខែមីនា ឆ្នាំ 2018 កំពុងព្យាយាមចូលទៅក្នុងកំពូលទាំងបួន ជំនួយការរបស់ Watsonរចនាឡើងសម្រាប់ក្រុមហ៊ុនដែលចង់បង្កើតប្រព័ន្ធផ្ទាល់ខ្លួនរបស់ពួកគេនៃជំនួយការនិម្មិតជាមួយនឹងការគ្រប់គ្រងសំឡេង។ តើអ្វីទៅជាអត្ថប្រយោជន៍នៃដំណោះស្រាយ IBM? យោងតាមអ្នកតំណាងក្រុមហ៊ុន ជាដំបូងនៃការទាំងអស់ លើឱកាសកាន់តែច្រើនសម្រាប់ការធ្វើផ្ទាល់ខ្លួន និងការការពារឯកជនភាព។

ទីមួយ ជំនួយការ Watson មិនមានម៉ាកយីហោទេ។ ក្រុមហ៊ុនអាចបង្កើតដំណោះស្រាយផ្ទាល់ខ្លួនរបស់ពួកគេនៅលើវេទិកានេះ ហើយដាក់ស្លាកយីហោរបស់ពួកគេជាមួយនឹងម៉ាកផ្ទាល់ខ្លួនរបស់ពួកគេ។

ទីពីរ ពួកគេអាចបណ្តុះបណ្តាលប្រព័ន្ធជំនួយរបស់ពួកគេដោយប្រើសំណុំទិន្នន័យផ្ទាល់ខ្លួនរបស់ពួកគេ ដែល IBM និយាយថាធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការបន្ថែមលក្ខណៈពិសេស និងពាក្យបញ្ជាទៅប្រព័ន្ធនោះជាងបច្ចេកវិទ្យា VUI (ចំណុចប្រទាក់អ្នកប្រើសំឡេង) ផ្សេងទៀត។

ទីបី ជំនួយការ Watson មិនផ្តល់ឱ្យ IBM នូវព័ត៌មានអំពីសកម្មភាពរបស់អ្នកប្រើទេ - អ្នកបង្កើតដំណោះស្រាយនៅលើវេទិកាអាចរក្សាទិន្នន័យដ៏មានតម្លៃសម្រាប់ខ្លួនពួកគេតែប៉ុណ្ណោះ។ ទន្ទឹមនឹងនេះ នរណាម្នាក់ដែលបង្កើតឧបករណ៍ ឧទាហរណ៍ជាមួយ Alexa គួរតែដឹងថាទិន្នន័យដ៏មានតម្លៃរបស់ពួកគេនឹងបញ្ចប់នៅលើ Amazon ។

ជំនួយការ Watson មានការអនុវត្តជាច្រើនរួចទៅហើយ។ ជាឧទាហរណ៍ ប្រព័ន្ធនេះត្រូវបានប្រើប្រាស់ដោយ Harman ដែលបានបង្កើតជំនួយការសំឡេងសម្រាប់រថយន្តម៉ាក Maserati (6)។ នៅអាកាសយានដ្ឋាន Munich ជំនួយការ IBM ផ្តល់ថាមពលដល់មនុស្សយន្ត Pepper ដើម្បីជួយអ្នកដំណើរផ្លាស់ទី។ ឧទាហរណ៍ទីបីគឺ Chameleon Technologies ដែលបច្ចេកវិទ្យាសំឡេងត្រូវបានប្រើនៅក្នុងឧបករណ៍វាស់ស្ទង់ផ្ទះឆ្លាតវៃ។

6. ជំនួយការ Watson នៅក្នុងរថយន្តម៉ាក Maserati

វាមានតម្លៃបន្ថែមថាបច្ចេកវិទ្យាមូលដ្ឋាននៅទីនេះក៏មិនថ្មីដែរ។ ជំនួយការ Watson រួមមានសមត្ថភាពអ៊ិនគ្រីបសម្រាប់ផលិតផល IBM ដែលមានស្រាប់ ការសន្ទនា Watson និង Watson Virtual Agent ក៏ដូចជា APIs សម្រាប់ការវិភាគភាសា និងការជជែក។

Amazon មិនត្រឹមតែជាក្រុមហ៊ុននាំមុខគេលើបច្ចេកវិទ្យាសំឡេងឆ្លាតវៃប៉ុណ្ណោះទេ ប៉ុន្តែកំពុងប្រែក្លាយវាទៅជាអាជីវកម្មផ្ទាល់។ ទោះជាយ៉ាងណាក៏ដោយ ក្រុមហ៊ុនមួយចំនួនបានពិសោធន៍ជាមួយការរួមបញ្ចូល Echo ច្រើនមុននេះ។ Sisense ដែលជាក្រុមហ៊ុននៅក្នុងឧស្សាហកម្ម BI និងវិភាគបានណែនាំការរួមបញ្ចូល Echo នៅក្នុងខែកក្កដា ឆ្នាំ 2016។ នៅក្នុងវេន ការចាប់ផ្តើមអាជីវកម្ម Roxy បានសម្រេចចិត្តបង្កើតកម្មវិធី និងផ្នែករឹងដែលគ្រប់គ្រងដោយសំឡេងរបស់ខ្លួនសម្រាប់ឧស្សាហកម្មបដិសណ្ឋារកិច្ច។ កាលពីដើមឆ្នាំនេះ Synqq បានណែនាំកម្មវិធីកត់ចំណាំដែលប្រើការដំណើរការសំឡេង និងភាសាធម្មជាតិ ដើម្បីបន្ថែមចំណាំ និងធាតុប្រតិទិនដោយមិនចាំបាច់វាយវានៅលើក្តារចុច។

អាជីវកម្មខ្នាតតូចទាំងអស់នេះមានមហិច្ឆតាខ្ពស់។ ទោះជាយ៉ាងណាក៏ដោយ ភាគច្រើនពួកគេបានដឹងថា មិនមែនអ្នកប្រើប្រាស់គ្រប់រូបចង់ផ្ទេរទិន្នន័យរបស់ពួកគេទៅកាន់ Amazon, Google, Apple ឬ Microsoft ដែលជាអ្នកលេងដ៏សំខាន់បំផុតក្នុងការបង្កើតវេទិកាទំនាក់ទំនងជាសំឡេងនោះទេ។

ជនជាតិអាមេរិកចង់ទិញ

ក្នុងឆ្នាំ 2016 ការស្វែងរកដោយសំឡេងមានចំនួន 20% នៃការស្វែងរកតាមទូរស័ព្ទ Google ទាំងអស់។ អ្នកដែលប្រើបច្ចេកវិទ្យានេះជាប្រចាំថ្ងៃបានលើកឡើងពីភាពងាយស្រួល និងការធ្វើកិច្ចការច្រើនក្នុងចំណោមអត្ថប្រយោជន៍ដ៏ធំបំផុតរបស់វា។ (ឧទាហរណ៍ សមត្ថភាពប្រើប្រាស់ម៉ាស៊ីនស្វែងរកពេលបើកបររថយន្ត)។

អ្នកវិភាគ Visiongain ប៉ាន់ប្រមាណតម្លៃទីផ្សារបច្ចុប្បន្ននៃជំនួយការឌីជីថលឆ្លាតវៃចំនួន 1,138 ពាន់លានដុល្លារ។ មានយន្តការបែបនេះកាន់តែច្រើនឡើង។ នេះបើតាមលោក Gartner នៅដំណាច់ឆ្នាំ ២០១៨ នេះហើយ។ 30% នៃអន្តរកម្មរបស់យើង។ ជាមួយនឹងបច្ចេកវិទ្យានឹងមានការសន្ទនាជាមួយប្រព័ន្ធសំឡេង។

ក្រុមហ៊ុនស្រាវជ្រាវរបស់អង់គ្លេស IHS Markit ប៉ាន់ប្រមាណថាទីផ្សារសម្រាប់ជំនួយការឌីជីថលដែលដំណើរការដោយ AI នឹងឈានដល់ 4 ពាន់លានឧបករណ៍នៅចុងឆ្នាំនេះ ហើយចំនួននេះអាចកើនឡើងដល់ 2020 ពាន់លាននៅឆ្នាំ 7 ។

យោងតាមរបាយការណ៍ពី eMarketer និង VoiceLabs ជនជាតិអាមេរិកចំនួន 2017 លាននាក់បានប្រើការគ្រប់គ្រងសំឡេងយ៉ាងហោចណាស់ម្តងក្នុងមួយខែក្នុងឆ្នាំ 35,6 ។ នេះមានន័យថាមានការកើនឡើងជិត 130% ធៀបនឹងឆ្នាំមុន។ ទីផ្សារជំនួយឌីជីថលតែម្នាក់ឯងត្រូវបានរំពឹងថានឹងកើនឡើងនៅឆ្នាំ 2018% ក្នុង 23 ឆ្នាំ។ នេះមានន័យថាអ្នកនឹងកំពុងប្រើពួកវារួចហើយ។ ជនជាតិអាមេរិកចំនួន 60,5 លាននាក់ដែលនឹងនាំមកនូវប្រាក់ជាក់ស្តែងសម្រាប់អ្នកផលិតរបស់ពួកគេ។ RBC Capital Markets ប៉ាន់ប្រមាណថា ចំណុចប្រទាក់ Alexa នឹងបង្កើតប្រាក់ចំណូលរហូតដល់ 2020 ពាន់លានដុល្លារសម្រាប់ Amazon នៅឆ្នាំ 10។

លាង, ដុតនំ, ស្អាត!

ចំណុចប្រទាក់សំឡេងកំពុងចូលទៅក្នុងឧបករណ៍ប្រើប្រាស់ក្នុងផ្ទះ និងទីផ្សារអេឡិចត្រូនិកយ៉ាងក្លាហានកាន់តែខ្លាំងឡើង។ នេះអាចត្រូវបានគេមើលឃើញរួចហើយក្នុងអំឡុងពេលពិព័រណ៍ IFA 2017 កាលពីឆ្នាំមុន។ ក្រុមហ៊ុនអាមេរិក Neato Robotics បានណែនាំឧទាហរណ៍ ម៉ាស៊ីនបូមធូលីមនុស្សយន្តដែលភ្ជាប់ទៅវេទិកាផ្ទះឆ្លាតវៃមួយចំនួន រួមទាំងប្រព័ន្ធ Amazon Echo ផងដែរ។ តាមរយៈការនិយាយទៅកាន់ឧបករណ៍បំពងសម្លេងឆ្លាតវៃ Echo អ្នកអាចណែនាំម៉ាស៊ីនឱ្យសម្អាតផ្ទះទាំងមូលរបស់អ្នកនៅពេលជាក់លាក់នៃថ្ងៃ ឬពេលយប់។

ផលិតផលដែលដំណើរការដោយសំឡេងផ្សេងទៀតត្រូវបានដាក់តាំងបង្ហាញនៅក្នុងកម្មវិធី រាប់ចាប់ពីទូរទស្សន៍ឆ្លាតវៃដែលលក់ក្រោមម៉ាក Toshiba ដោយក្រុមហ៊ុនទួរគី Vestel រហូតដល់ភួយកំដៅដោយក្រុមហ៊ុនអាល្លឺម៉ង់ Beurer ។ ឧបករណ៍អេឡិចត្រូនិកទាំងនេះជាច្រើនអាចត្រូវបានធ្វើឱ្យសកម្មពីចម្ងាយដោយប្រើស្មាតហ្វូនផងដែរ។

ទោះជាយ៉ាងណាក៏ដោយ យោងតាមអ្នកតំណាងរបស់ Bosch វាលឿនពេកក្នុងការនិយាយថាជម្រើសជំនួយការផ្ទះមួយណានឹងក្លាយជាលេចធ្លោ។ នៅ IFA 2017 ក្រុមបច្ចេកទេសអាល្លឺម៉ង់បានបង្ហាញម៉ាស៊ីនបោកគក់ (7) ឡ និងម៉ាស៊ីនកាហ្វេដែលភ្ជាប់ទៅអេកូ។ Bosch ក៏ចង់ឱ្យឧបករណ៍របស់ខ្លួនត្រូវគ្នាជាមួយ Google និង Apple voice platforms នាពេលអនាគតផងដែរ។

7. ម៉ាស៊ីនបោកគក់ Bosch ដែលភ្ជាប់ទៅ Amazon Echo

ក្រុមហ៊ុនដូចជា Fujitsu, Sony និង Panasonic កំពុងបង្កើតដំណោះស្រាយជំនួយការសំឡេងដែលមានមូលដ្ឋានលើ AI ផ្ទាល់ខ្លួនរបស់ពួកគេ។ ក្រុមហ៊ុន Sharp កំពុងបន្ថែមបច្ចេកវិទ្យានេះទៅក្នុងឡ និងមនុស្សយន្តតូចៗដែលចូលទីផ្សារ។ Nippon Telegraph & Telephone កំពុងជួលផ្នែករឹង និងអ្នកផលិតប្រដាប់ក្មេងលេង ដើម្បីសម្របប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលគ្រប់គ្រងដោយសំឡេង។

គំនិតចាស់។ តើពេលវេលារបស់នាងមកដល់ហើយឬនៅ?

តាមពិតទៅ គំនិតនៃចំណុចប្រទាក់អ្នកប្រើសំឡេង (VUI) មានច្រើនទសវត្សរ៍មកហើយ។ នរណាម្នាក់ដែលបានមើល Star Trek ឬ 2001: A Space Odyssey ឆ្នាំមុនប្រហែលជារំពឹងថាប្រហែលឆ្នាំ 2000 យើងទាំងអស់គ្នានឹងគ្រប់គ្រងកុំព្យូទ័រដោយប្រើសំឡេងរបស់យើង។ ដូចគ្នានេះផងដែរ វាមិនមែនគ្រាន់តែជាអ្នកសរសេរប្រឌិតបែបវិទ្យាសាស្ត្រទេ ដែលបានមើលឃើញពីសក្តានុពលនៃចំណុចប្រទាក់ប្រភេទនេះ។ នៅឆ្នាំ 1986 អ្នកស្រាវជ្រាវ Nielsen បានសួរអ្នកជំនាញផ្នែក IT នូវអ្វីដែលពួកគេគិតថានឹងជាការផ្លាស់ប្តូរដ៏ធំបំផុតនៃចំណុចប្រទាក់អ្នកប្រើនៅឆ្នាំ 2000 ។ ពួកគេភាគច្រើនបានចង្អុលបង្ហាញអំពីការអភិវឌ្ឍន៍ចំណុចប្រទាក់សំឡេង។

មានហេតុផលដើម្បីសង្ឃឹមសម្រាប់ដំណោះស្រាយបែបនេះ។ ការប្រាស្រ័យទាក់ទងគ្នាតាមពាក្យសំដីគឺជាវិធីធម្មជាតិបំផុតសម្រាប់មនុស្សក្នុងការផ្លាស់ប្តូរគំនិតដោយមនសិការ ដូច្នេះការប្រើវាសម្រាប់អន្តរកម្មរវាងមនុស្សនិងម៉ាស៊ីនហាក់ដូចជាដំណោះស្រាយដ៏ល្អបំផុតរហូតមកដល់ពេលនេះ។

មួយក្នុងចំណោម VUIs ដំបូងគេហៅថា ប្រអប់ស្បែកជើងវាត្រូវបានបង្កើតឡើងនៅដើមទសវត្សរ៍ទី 60 ដោយក្រុមហ៊ុន IBM ។ វាគឺជាប្រព័ន្ធសម្គាល់សំឡេងដែលនាំមុខគេនាពេលបច្ចុប្បន្ននេះ។ ទោះជាយ៉ាងណាក៏ដោយ ការអភិវឌ្ឍន៍ឧបករណ៍ VUI ត្រូវបានកំណត់ដោយដែនកំណត់នៃថាមពលកុំព្យូទ័រ។ ការញែក និងបកស្រាយការនិយាយរបស់មនុស្សក្នុងពេលវេលាជាក់ស្តែង ទាមទារការខិតខំប្រឹងប្រែងជាច្រើន ហើយវាត្រូវចំណាយពេលជាងហាសិបឆ្នាំដើម្បីទៅដល់ចំណុចដែលវាអាចទៅរួច។

ឧបករណ៍ដែលមានចំណុចប្រទាក់សំឡេងបានចាប់ផ្តើមលេចឡើងនៅក្នុងផលិតកម្មដ៏ធំនៅពាក់កណ្តាលទសវត្សរ៍ទី 90 ប៉ុន្តែមិនទទួលបានប្រជាប្រិយភាពទេ។ ទូរស័ព្ទដំបូងដែលមានការគ្រប់គ្រងដោយសំឡេង (ហៅទូរស័ព្ទ) គឺ Philips Sparkចេញផ្សាយនៅឆ្នាំ 1996 ។ ទោះជាយ៉ាងណាក៏ដោយ ឧបករណ៍ដែលប្រកបដោយភាពច្នៃប្រឌិត និងងាយស្រួលប្រើនេះ មិនទំនេរពីការកំណត់ផ្នែកបច្ចេកវិទ្យានោះទេ។

ទូរស័ព្ទផ្សេងទៀតដែលបំពាក់ដោយទម្រង់នៃចំណុចប្រទាក់សំឡេង (បង្កើតដោយក្រុមហ៊ុនដូចជា RIM, Samsung ឬ Motorola) បានវាយលុកទីផ្សារជាទៀងទាត់ ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ចុចដោយសំឡេង ឬផ្ញើសារ។ ទោះយ៉ាងណាក៏ដោយ ពួកគេទាំងអស់តម្រូវឱ្យទន្ទេញពាក្យបញ្ជាជាក់លាក់ និងបញ្ចេញសំឡេងជាទម្រង់សិប្បនិមិត្តដោយបង្ខំ សម្របតាមសមត្ថភាពរបស់ឧបករណ៍នាសម័យនោះ។ នេះបានបង្កើតនូវកំហុសមួយចំនួនធំ ដែលនាំឱ្យអ្នកប្រើប្រាស់មិនពេញចិត្ត។

ទោះជាយ៉ាងណាក៏ដោយ ឥឡូវនេះយើងកំពុងឈានចូលយុគសម័យថ្មីនៃកុំព្យូទ័រ ដែលភាពជឿនលឿនក្នុងការរៀនម៉ាស៊ីន និងបញ្ញាសិប្បនិមិត្តកំពុងដោះសោសក្ដានុពលនៃការសន្ទនាជាមធ្យោបាយថ្មីដើម្បីធ្វើអន្តរកម្មជាមួយបច្ចេកវិទ្យា (8)។ ចំនួនឧបករណ៍ដែលគាំទ្រអន្តរកម្មជាសំឡេងបានក្លាយជាកត្តាសំខាន់ដែលជះឥទ្ធិពលយ៉ាងខ្លាំងដល់ការអភិវឌ្ឍន៍ VUI ។ សព្វថ្ងៃនេះ ស្ទើរតែ 1/3 នៃចំនួនប្រជាជនពិភពលោកមានស្មាតហ្វូនរួចហើយ ដែលអាចប្រើបានសម្រាប់អាកប្បកិរិយាប្រភេទនេះ។ វាហាក់បីដូចជាអ្នកប្រើប្រាស់ភាគច្រើនបានត្រៀមខ្លួនរួចរាល់ហើយក្នុងការសម្របខ្លួននូវចំណុចប្រទាក់សំឡេងរបស់ពួកគេ។

8. ប្រវត្តិសាស្រ្តទំនើបនៃការអភិវឌ្ឍន៍ចំណុចប្រទាក់សំឡេង

ទោះយ៉ាងណាក៏ដោយ មុននឹងយើងអាចនិយាយជាមួយកុំព្យូទ័រដោយសេរី ដូចដែលវីរបុរសនៃ A Space Odyssey បានធ្វើ យើងត្រូវជម្នះបញ្ហាមួយចំនួន។ ម៉ាស៊ីននៅតែមិនសូវល្អក្នុងការគ្រប់គ្រងភាសា។ ក្រៅពីនេះ។ មនុស្សជាច្រើននៅតែមានអារម្មណ៍មិនស្រួលក្នុងការផ្តល់ការបញ្ជាជាសំឡេងទៅកាន់ម៉ាស៊ីនស្វែងរក.

ស្ថិតិបង្ហាញថាជំនួយការសំឡេងត្រូវបានប្រើជាចម្បងនៅផ្ទះ ឬក្នុងចំណោមមិត្តភក្តិជិតស្និទ្ធ។ គ្មានអ្នកណាម្នាក់ក្នុងចំណោមអ្នកដែលត្រូវបានសម្ភាសបានទទួលស្គាល់ថាបានប្រើការស្វែងរកសំឡេងនៅកន្លែងសាធារណៈទេ។ ទោះជាយ៉ាងណាក៏ដោយការទប់ស្កាត់នេះទំនងជានឹងរលាយបាត់ជាមួយនឹងការរីករាលដាលនៃបច្ចេកវិទ្យានេះ។

សំណួរបច្ចេកទេសពិបាក

បញ្ហាដែលប្រព័ន្ធ (ASR) ប្រឈមមុខគឺការទាញយកទិន្នន័យមានប្រយោជន៍ពីសញ្ញានៃការនិយាយ ហើយភ្ជាប់វាជាមួយពាក្យជាក់លាក់ដែលមានអត្ថន័យជាក់លាក់សម្រាប់មនុស្សម្នាក់។ សំឡេងដែលផលិតគឺខុសគ្នារាល់ពេល។

ភាពប្រែប្រួលនៃសញ្ញានៃការនិយាយ ជាសម្បត្តិធម្មជាតិរបស់វា ជាឧទាហរណ៍ដោយសារយើងទទួលស្គាល់ការសង្កត់សំឡេង ឬសំឡេង។ ធាតុនីមួយៗនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយមានភារកិច្ចជាក់លាក់មួយ។ ដោយផ្អែកលើសញ្ញាដែលបានដំណើរការ និងប៉ារ៉ាម៉ែត្ររបស់វា គំរូសូរស័ព្ទមួយត្រូវបានបង្កើតឡើង ដែលត្រូវបានភ្ជាប់ជាមួយនឹងគំរូភាសា។ ប្រព័ន្ធទទួលស្គាល់អាចដំណើរការលើមូលដ្ឋាននៃគំរូមួយចំនួនតូច ឬច្រើន ដែលកំណត់ទំហំនៃវាក្យសព្ទដែលវាដំណើរការ។ ពួកគេប្រហែលជា វចនានុក្រមតូច ក្នុងករណីប្រព័ន្ធដែលទទួលស្គាល់ពាក្យនីមួយៗ ឬពាក្យបញ្ជា ក៏ដូចជា មូលដ្ឋានទិន្នន័យធំ វាមានសមមូលនៃភាសាដែលបានកំណត់ ហើយយកទៅក្នុងគណនីគំរូភាសា (វេយ្យាករណ៍)។

បញ្ហាដែលប្រឈមមុខដោយចំណុចប្រទាក់សំឡេងនៅក្នុងកន្លែងដំបូង យល់ពីការនិយាយត្រឹមត្រូវ។ដែលក្នុងនោះ ជាឧទាហរណ៍ លំដាប់វេយ្យាករណ៍ទាំងមូលត្រូវបានលុបចោលជាញឹកញាប់ កំហុសភាសា និងសូរសព្ទ កំហុស ការខកខាន ពិការភាពនៃការនិយាយ ពាក្យដូចគ្នា ពាក្យដដែលៗដែលមិនសមហេតុផល។ល។ កើតឡើង។ ប្រព័ន្ធ ACP ទាំងអស់នេះត្រូវតែដំណើរការយ៉ាងឆាប់រហ័ស និងអាចទុកចិត្តបាន។ យ៉ាងហោចណាស់នោះគឺជាការរំពឹងទុក។

ប្រភពនៃការលំបាកក៏ជាសញ្ញាសូរស័ព្ទក្រៅពីការនិយាយដែលបានទទួលស្គាល់ដែលចូលទៅក្នុងការបញ្ចូលនៃប្រព័ន្ធទទួលស្គាល់ i.e. គ្រប់ប្រភេទ ការរំខាននិងសំលេងរំខាន. ក្នុងករណីសាមញ្ញបំផុតអ្នកត្រូវការពួកគេ។ ត្រងចេញ. កិច្ចការនេះហាក់ដូចជាទម្លាប់ និងងាយស្រួល - បន្ទាប់ពីទាំងអស់ សញ្ញាផ្សេងៗត្រូវបានត្រង ហើយគ្រប់វិស្វករអេឡិចត្រូនិចដឹងពីអ្វីដែលត្រូវធ្វើក្នុងស្ថានភាពបែបនេះ។ ទោះជាយ៉ាងណាក៏ដោយ នេះត្រូវធ្វើយ៉ាងប្រុងប្រយ័ត្ន និងដោយប្រុងប្រយ័ត្ន ប្រសិនបើលទ្ធផលនៃការទទួលស្គាល់ការនិយាយគឺត្រូវនឹងការរំពឹងទុករបស់យើង។

ការត្រងដែលបានប្រើនាពេលបច្ចុប្បន្ននេះ ធ្វើឱ្យវាអាចដកចេញបាន រួមជាមួយនឹងសញ្ញាសំឡេង សំឡេងខាងក្រៅដែលចាប់យកដោយមីក្រូហ្វូន និងលក្ខណៈសម្បត្តិខាងក្នុងនៃសញ្ញានិយាយខ្លួនឯង ដែលធ្វើឱ្យវាពិបាកក្នុងការសម្គាល់វា។ ទោះជាយ៉ាងណាក៏ដោយ បញ្ហាបច្ចេកទេសដែលស្មុគស្មាញជាងនេះកើតឡើងនៅពេលដែលការជ្រៀតជ្រែកទៅនឹងសញ្ញាសុន្ទរកថាដែលបានវិភាគគឺ ... សញ្ញាសុន្ទរកថាមួយផ្សេងទៀត នោះគឺជាឧទាហរណ៍ ការពិភាក្សាខ្លាំងៗជុំវិញ។ សំណួរនេះត្រូវបានគេស្គាល់នៅក្នុងអក្សរសិល្ប៍ថាជាអ្វីដែលគេហៅថា។ នេះតម្រូវឱ្យមានការប្រើប្រាស់វិធីសាស្រ្តស្មុគស្មាញរួចទៅហើយ, ដែលគេហៅថា។ deconvolution (ស្រាយ) សញ្ញា។

បញ្ហាជាមួយនឹងការទទួលស្គាល់ការនិយាយមិនបញ្ចប់នៅទីនោះទេ។ វាគួរអោយដឹងថាការនិយាយមានព័ត៌មានជាច្រើនប្រភេទ។ សំឡេងរបស់មនុស្សបង្ហាញពីភេទ អាយុ តួអង្គផ្សេងៗគ្នារបស់ម្ចាស់ ឬស្ថានភាពសុខភាពរបស់គាត់។ មាននាយកដ្ឋានវិស្វកម្មជីវវេជ្ជសាស្ត្រយ៉ាងទូលំទូលាយដែលដោះស្រាយជាមួយនឹងការធ្វើរោគវិនិច្ឆ័យនៃជំងឺផ្សេងៗដោយផ្អែកលើបាតុភូតសូរស័ព្ទលក្ខណៈដែលមាននៅក្នុងសញ្ញានៃការនិយាយ។

វាក៏មានកម្មវិធីដែលគោលបំណងចម្បងនៃការវិភាគសូរស័ព្ទនៃសញ្ញាសុន្ទរកថាគឺដើម្បីកំណត់អត្តសញ្ញាណអ្នកនិយាយ ឬផ្ទៀងផ្ទាត់ថាគាត់ជានរណាដែលគាត់អះអាងថាជា (សំឡេងជំនួសឱ្យសោ ពាក្យសម្ងាត់ ឬលេខកូដ PUK) ។ នេះអាចមានសារៈសំខាន់ ជាពិសេសសម្រាប់បច្ចេកវិទ្យាអគារឆ្លាតវៃ។

សមាសធាតុទីមួយនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយគឺ មីក្រូហ្វូន. ទោះជាយ៉ាងណាក៏ដោយ សញ្ញាដែលចាប់យកដោយមីក្រូហ្វូនជាធម្មតានៅតែមានការប្រើប្រាស់តិចតួច។ ការសិក្សាបង្ហាញថារូបរាង និងដំណើរនៃរលកសំឡេងប្រែប្រួលយ៉ាងខ្លាំង អាស្រ័យលើមនុស្ស ល្បឿននៃការនិយាយ និងមួយផ្នែកនៃអារម្មណ៍របស់ interlocutor - ខណៈពេលដែលពួកគេឆ្លុះបញ្ចាំងពីខ្លឹមសារនៃពាក្យបញ្ជានិយាយ។

ដូច្នេះសញ្ញាត្រូវតែដំណើរការត្រឹមត្រូវ។ សូរស័ព្ទ សូរសព្ទ និងវិទ្យាសាស្ត្រកុំព្យូទ័រទំនើបរួមគ្នាផ្តល់នូវឧបករណ៍ដ៏សម្បូរបែបដែលអាចត្រូវបានប្រើដើម្បីដំណើរការ វិភាគ ទទួលស្គាល់ និងយល់ពីសញ្ញានៃការនិយាយ។ វិសាលគមថាមវន្តនៃសញ្ញា, អ្វីដែលគេហៅថា វិសាលគមថាមវន្ត. ពួកវាមានភាពងាយស្រួលក្នុងការទទួលបាន ហើយការនិយាយដែលបង្ហាញក្នុងទម្រង់នៃវិសាលគមថាមវន្តគឺមានភាពងាយស្រួលក្នុងការទទួលស្គាល់ដោយប្រើបច្ចេកទេសស្រដៀងគ្នាទៅនឹងអ្វីដែលបានប្រើក្នុងការទទួលស្គាល់រូបភាព។

ធាតុសាមញ្ញនៃការនិយាយ (ឧទាហរណ៍ពាក្យបញ្ជា) អាចត្រូវបានទទួលស្គាល់ដោយភាពស្រដៀងគ្នាសាមញ្ញនៃ spectrograms ទាំងមូល។ ឧទាហរណ៍ វចនានុក្រមទូរសព្ទដែលប្រើជាសំឡេងមានតែពីរបីដប់ទៅពីរបីរយពាក្យ និងឃ្លា ដែលជាធម្មតាដាក់ជាជង់ជាមុន ដើម្បីឱ្យពួកគេអាចកំណត់អត្តសញ្ញាណបានយ៉ាងងាយស្រួល និងមានប្រសិទ្ធភាព។ នេះគឺគ្រប់គ្រាន់សម្រាប់កិច្ចការគ្រប់គ្រងសាមញ្ញ ប៉ុន្តែវាកំណត់យ៉ាងធ្ងន់ធ្ងរលើកម្មវិធីទាំងមូល។ ប្រព័ន្ធដែលត្រូវបានបង្កើតឡើងតាមគ្រោងការណ៍ជាក្បួនគាំទ្រតែវាគ្មិនជាក់លាក់ដែលសំឡេងត្រូវបានបណ្តុះបណ្តាលជាពិសេស។ ដូច្នេះប្រសិនបើមានអ្នកថ្មីដែលចង់ប្រើសំឡេងរបស់ពួកគេដើម្បីគ្រប់គ្រងប្រព័ន្ធ ពួកគេទំនងជាមិនត្រូវបានទទួលយកទេ។

លទ្ធផលនៃប្រតិបត្តិការនេះត្រូវបានគេហៅថា វិសាលគម 2-Wនោះគឺជាវិសាលគមពីរវិមាត្រ។ មានសកម្មភាពមួយផ្សេងទៀតនៅក្នុងប្លុកនេះដែលគួរយកចិត្តទុកដាក់ចំពោះ - ការបែងចែក. និយាយជាទូទៅ យើងកំពុងនិយាយអំពីការបំបែកសញ្ញានិយាយបន្តទៅជាផ្នែកដែលអាចសម្គាល់ដោយឡែកពីគ្នា។ វាគ្រាន់តែជាការធ្វើរោគវិនិច្ឆ័យបុគ្គលទាំងនេះប៉ុណ្ណោះដែលការទទួលស្គាល់ទាំងមូលត្រូវបានធ្វើឡើង។ នីតិវិធីនេះគឺចាំបាច់ព្រោះវាមិនអាចកំណត់អត្តសញ្ញាណការនិយាយដ៏វែង និងស្មុគស្មាញក្នុងមួយលើក។ បរិមាណទាំងមូលត្រូវបានសរសេររួចហើយអំពីផ្នែកណាដែលត្រូវបែងចែកនៅក្នុងសញ្ញាសុន្ទរកថា ដូច្នេះយើងនឹងមិនសម្រេចចិត្តឥឡូវនេះថាតើផ្នែកដែលសម្គាល់គួរតែជាសូរសព្ទ (សមមូលសំឡេង) ព្យាង្គ ឬប្រហែលជាអាឡូហ្វូន។

ដំណើរការនៃការទទួលស្គាល់ដោយស្វ័យប្រវត្តិតែងតែសំដៅទៅលើលក្ខណៈពិសេសមួយចំនួននៃវត្ថុ។ រាប់រយសំណុំនៃប៉ារ៉ាម៉ែត្រផ្សេងគ្នាត្រូវបានសាកល្បងសម្រាប់សញ្ញាសុន្ទរកថា។ សញ្ញាសុន្ទរកថាមាន បែងចែកទៅជាស៊ុមដែលទទួលស្គាល់ និងការមាន លក្ខណៈពិសេសដែលបានជ្រើសរើសដែលស៊ុមទាំងនេះត្រូវបានបង្ហាញនៅក្នុងដំណើរការទទួលស្គាល់ យើងអាចអនុវត្ត (សម្រាប់ស៊ុមនីមួយៗដាច់ដោយឡែក) ចំណាត់ថ្នាក់, i.e. កំណត់អត្តសញ្ញាណទៅស៊ុម ដែលនឹងតំណាងឱ្យវានាពេលអនាគត។

ដំណាក់កាលបន្ទាប់ ការប្រមូលផ្តុំស៊ុមទៅជាពាក្យដាច់ដោយឡែក - ភាគច្រើនជាញឹកញាប់ផ្អែកលើអ្វីដែលគេហៅថា។ គំរូនៃគំរូ Markov ដែលមិនច្បាស់លាស់ (HMM-) ។ បន្ទាប់មកការចងក្រងពាក្យ ប្រយោគពេញលេញ.

ឥឡូវនេះយើងអាចត្រលប់ទៅប្រព័ន្ធ Alexa វិញបានមួយភ្លែត។ ឧទាហរណ៍របស់គាត់បង្ហាញពីដំណើរការពហុដំណាក់កាលនៃម៉ាស៊ីន "ការយល់ដឹង" របស់មនុស្សម្នាក់ - កាន់តែច្បាស់: ពាក្យបញ្ជាដែលផ្តល់ឱ្យដោយគាត់ឬសំណួរដែលបានសួរ។

ការយល់ដឹងអំពីពាក្យ ការយល់អត្ថន័យ និងការយល់ដឹងពីចេតនារបស់អ្នកប្រើប្រាស់ គឺជារឿងខុសគ្នាទាំងស្រុង។

ដូច្នេះជំហានបន្ទាប់គឺការងាររបស់ម៉ូឌុល NLP () ដែលជាភារកិច្ច ការទទួលស្គាល់ចេតនារបស់អ្នកប្រើ, i.e. អត្ថន័យនៃពាក្យបញ្ជា/សំណួរនៅក្នុងបរិបទដែលវាត្រូវបាននិយាយ។ ប្រសិនបើចេតនាត្រូវបានកំណត់ ការចាត់តាំងនូវអ្វីដែលគេហៅថាជំនាញ និងសមត្ថភាពឧ. មុខងារជាក់លាក់ដែលគាំទ្រដោយជំនួយការឆ្លាតវៃ។ ក្នុងករណីមានសំណួរអំពីអាកាសធាតុ ប្រភពទិន្នន័យអាកាសធាតុត្រូវបានហៅ ដែលនៅតែត្រូវដំណើរការទៅជាការនិយាយ (TTS - mechanism)។ ជាលទ្ធផល អ្នកប្រើប្រាស់ស្តាប់ចម្លើយចំពោះសំណួរដែលបានសួរ។

សំឡេង? សិល្បៈក្រាហ្វិក? ឬប្រហែលជាទាំងពីរ?

ប្រព័ន្ធអន្តរកម្មទំនើបដែលគេស្គាល់ភាគច្រើនគឺផ្អែកលើអន្តរការីដែលហៅថា ចំណុចប្រទាក់អ្នកប្រើក្រាហ្វិក (ចំណុចប្រទាក់ក្រាហ្វិក) ។ ជាអកុសល GUI មិនមែនជាមធ្យោបាយជាក់ស្តែងបំផុតក្នុងការធ្វើអន្តរកម្មជាមួយផលិតផលឌីជីថលនោះទេ។ នេះតម្រូវឱ្យអ្នកប្រើប្រាស់រៀនពីរបៀបប្រើចំណុចប្រទាក់ជាមុនសិន ហើយចងចាំព័ត៌មាននេះជាមួយនឹងអន្តរកម្មជាបន្តបន្ទាប់នីមួយៗ។ នៅក្នុងស្ថានភាពជាច្រើន សំឡេងមានភាពងាយស្រួលជាងមុន ពីព្រោះអ្នកអាចធ្វើអន្តរកម្មជាមួយ VUI ដោយគ្រាន់តែនិយាយទៅកាន់ឧបករណ៍។ ចំណុចប្រទាក់ដែលមិនបង្ខំអ្នកប្រើប្រាស់ឱ្យទន្ទេញ និងទន្ទេញពាក្យបញ្ជាជាក់លាក់ ឬវិធីសាស្ត្រអន្តរកម្មបណ្តាលឱ្យមានបញ្ហាតិចជាងមុន។

ជាការពិតណាស់ ការពង្រីក VUI មិនមែនមានន័យថាបោះបង់ចំណុចប្រទាក់ប្រពៃណីបន្ថែមទៀតនោះទេ ផ្ទុយទៅវិញ ចំណុចប្រទាក់កូនកាត់នឹងមានដែលរួមបញ្ចូលគ្នានូវវិធីជាច្រើននៃការធ្វើអន្តរកម្ម។

ចំណុចប្រទាក់សំឡេងមិនស័ក្តិសមសម្រាប់កិច្ចការទាំងអស់នៅក្នុងបរិបទទូរសព្ទទេ។ ជាមួយវា យើងនឹងទូរស័ព្ទទៅមិត្តភ័ក្តិដែលបើកឡាន ហើយថែមទាំងផ្ញើសារទៅគាត់ ប៉ុន្តែការពិនិត្យមើលការផ្ទេរចុងក្រោយអាចជាការពិបាកពេក - ដោយសារតែចំនួនព័ត៌មានដែលបានបញ្ជូនទៅប្រព័ន្ធ () និងបង្កើតដោយប្រព័ន្ធ (ប្រព័ន្ធ)។ ដូចដែល Rachel Hinman ណែនាំនៅក្នុងសៀវភៅ Mobile Frontier របស់នាង ការប្រើប្រាស់ VUI មានប្រសិទ្ធភាពបំផុតនៅពេលបំពេញការងារដែលបរិមាណនៃព័ត៌មានបញ្ចូល និងទិន្នផលមានតិចតួច។

ស្មាតហ្វូនដែលភ្ជាប់អ៊ីនធឺណិតគឺងាយស្រួល ប៉ុន្តែក៏មិនស្រួលដែរ (9)។ រាល់ពេលដែលអ្នកប្រើប្រាស់ចង់ទិញអ្វីមួយ ឬប្រើប្រាស់សេវាកម្មថ្មី ពួកគេត្រូវទាញយកកម្មវិធីផ្សេងទៀត ហើយបង្កើតគណនីថ្មីមួយ។ វាលសម្រាប់ការប្រើប្រាស់ និងការអភិវឌ្ឍន៍ចំណុចប្រទាក់សំឡេងត្រូវបានបង្កើតនៅទីនេះ។ ជំនួសឱ្យការបង្ខំអ្នកប្រើប្រាស់ឱ្យដំឡើងកម្មវិធីផ្សេងៗគ្នាជាច្រើន ឬបង្កើតគណនីដាច់ដោយឡែកសម្រាប់សេវាកម្មនីមួយៗ អ្នកជំនាញនិយាយថា VUI នឹងផ្លាស់ប្តូរបន្ទុកនៃកិច្ចការដ៏លំបាកទាំងនេះទៅជាជំនួយការសំឡេងដែលដំណើរការដោយ AI ។ វានឹងមានភាពងាយស្រួលសម្រាប់គាត់ក្នុងការអនុវត្តសកម្មភាពដ៏ខ្លាំងក្លា។ យើងនឹងបញ្ជាឱ្យគាត់តែប៉ុណ្ណោះ។

9. ចំណុចប្រទាក់សំឡេងតាមរយៈទូរស័ព្ទឆ្លាតវៃ

សព្វថ្ងៃនេះ ច្រើនជាងទូរស័ព្ទ និងកុំព្យូទ័រត្រូវបានភ្ជាប់ទៅអ៊ីនធឺណិត។ ទែម៉ូស្ដាតឆ្លាតវៃ អំពូលភ្លើង កំសៀវ និងឧបករណ៍រួមបញ្ចូល IoT ផ្សេងទៀតក៏ត្រូវបានភ្ជាប់ទៅបណ្តាញ (10) ផងដែរ។ ដូច្នេះហើយ មានឧបករណ៍ឥតខ្សែនៅជុំវិញខ្លួនយើង ដែលបំពេញជីវិតរបស់យើង ប៉ុន្តែមិនមែនឧបករណ៍ទាំងអស់នោះសមនឹងធម្មជាតិទៅក្នុងចំណុចប្រទាក់អ្នកប្រើក្រាហ្វិកនោះទេ។ ការប្រើប្រាស់ VUI នឹងជួយអ្នកឱ្យងាយស្រួលបញ្ចូលពួកវាទៅក្នុងបរិយាកាសរបស់យើង។

10. ចំណុចប្រទាក់សំឡេងជាមួយ Internet of Things

ការបង្កើតចំណុចប្រទាក់អ្នកប្រើសំឡេងនឹងក្លាយទៅជាជំនាញរចនាដ៏សំខាន់មួយក្នុងពេលឆាប់ៗនេះ។ នេះគឺជាបញ្ហាពិតប្រាកដ - តម្រូវការក្នុងការអនុវត្តប្រព័ន្ធសំឡេងនឹងលើកទឹកចិត្តអ្នកឱ្យផ្តោតលើការរចនាសកម្ម ពោលគឺការព្យាយាមស្វែងយល់ពីចេតនាដំបូងរបស់អ្នកប្រើប្រាស់ ដោយគិតទុកជាមុនអំពីតម្រូវការ និងការរំពឹងទុករបស់ពួកគេនៅគ្រប់ដំណាក់កាលនៃការសន្ទនា។

សំឡេងគឺជាមធ្យោបាយដ៏មានប្រសិទ្ធភាពក្នុងការបញ្ចូលទិន្នន័យ ដែលវាអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ចេញពាក្យបញ្ជាទៅកាន់ប្រព័ន្ធយ៉ាងឆាប់រហ័សតាមលក្ខខណ្ឌរបស់ពួកគេផ្ទាល់។ ម្យ៉ាងវិញទៀត អេក្រង់ផ្តល់នូវវិធីដ៏មានប្រសិទ្ធភាពក្នុងការបង្ហាញព័ត៌មាន៖ វាអនុញ្ញាតឱ្យប្រព័ន្ធបង្ហាញព័ត៌មានយ៉ាងច្រើនក្នុងពេលតែមួយ ដោយកាត់បន្ថយបន្ទុកលើអង្គចងចាំរបស់អ្នកប្រើប្រាស់។ វាសមហេតុផលដែលការបញ្ចូលពួកវាទៅក្នុងប្រព័ន្ធតែមួយ ស្តាប់ទៅជាការលើកទឹកចិត្ត។

ឧបករណ៍បំពងសម្លេងឆ្លាតវៃដូចជា Amazon Echo និង Google Home មិនផ្តល់ការបង្ហាញរូបភាពទាល់តែសោះ។ ការកែលម្អយ៉ាងសំខាន់នូវភាពត្រឹមត្រូវនៃការសម្គាល់សំឡេងនៅចម្ងាយមធ្យម ពួកគេអនុញ្ញាតឱ្យប្រតិបត្តិការដោយមិនប្រើដៃ ដែលជាហេតុបង្កើនភាពបត់បែន និងប្រសិទ្ធភាពរបស់ពួកគេ - ពួកគេចង់បានសូម្បីតែអ្នកប្រើប្រាស់ដែលមានស្មាតហ្វូនដែលមានការគ្រប់គ្រងសំឡេងរួចហើយក៏ដោយ។ ទោះជាយ៉ាងណាក៏ដោយ កង្វះអេក្រង់គឺជាដែនកំណត់ដ៏ធំមួយ។

មានតែសំឡេងប៊ីបប៉ុណ្ណោះដែលអាចប្រើបាន ដើម្បីជូនដំណឹងដល់អ្នកប្រើប្រាស់អំពីពាក្យបញ្ជាដែលអាចកើតមាន ហើយការអានលទ្ធផលឱ្យខ្លាំងៗក្លាយជាការធុញទ្រាន់ លើកលែងតែកិច្ចការមូលដ្ឋានបំផុត។ ការកំណត់កម្មវិធីកំណត់ម៉ោងដោយប្រើសំឡេងបញ្ជាពេលចម្អិនអាហារគឺល្អណាស់ ប៉ុន្តែការធ្វើឱ្យអ្នកសួរថាតើពេលវេលានៅសល់ប៉ុន្មានគឺមិនចាំបាច់ទេ។ ការទទួលបានការព្យាករណ៍អាកាសធាតុទៀងទាត់ក្លាយជាការសាកល្បងនៃការចងចាំសម្រាប់អ្នកប្រើដែលត្រូវស្តាប់និងស្រូបយកការពិតជាបន្តបន្ទាប់ពេញមួយសប្តាហ៍ ជាជាងយកពួកវាចេញពីអេក្រង់ភ្លាមៗ។

អ្នករចនាមានរួចហើយ ដំណោះស្រាយកូនកាត់, Echo Show (11) ដែលបានបន្ថែមអេក្រង់បង្ហាញទៅឧបករណ៍បំពងសំឡេងឆ្លាតវៃ Echo មូលដ្ឋាន។ នេះពង្រីកមុខងាររបស់ឧបករណ៍យ៉ាងខ្លាំង។ ទោះជាយ៉ាងណាក៏ដោយ Echo Show នៅតែមានសមត្ថភាពតិចជាងច្រើនក្នុងការអនុវត្តមុខងារមូលដ្ឋានដែលមានជាយូរមកហើយនៅលើស្មាតហ្វូន និងថេប្លេត។ ឧទាហរណ៍ វាមិនអាច (មិនទាន់) រុករកគេហទំព័រ បង្ហាញការវាយតម្លៃ ឬបង្ហាញខ្លឹមសារនៃរទេះទិញទំនិញ Amazon ទេ។

ការបង្ហាញដែលមើលឃើញគឺជាមធ្យោបាយដ៏មានប្រសិទ្ធភាពជាងក្នុងការផ្តល់ឱ្យមនុស្សនូវព័ត៌មានដ៏សម្បូរបែបជាជាងគ្រាន់តែសំឡេង។ ការរចនាដោយប្រើសំឡេងជាអាទិភាពអាចកែលម្អអន្តរកម្មសំឡេងបានយ៉ាងច្រើន ប៉ុន្តែក្នុងរយៈពេលវែង ការមិនប្រើម៉ឺនុយដែលមើលឃើញដោយចេតនាសម្រាប់ជាប្រយោជន៍នៃអន្តរកម្មនឹងដូចជាការវាយតប់គ្នាដោយដៃម្ខាងចងនៅពីក្រោយខ្នងរបស់អ្នក។ ដោយសារតែភាពស្មុគ្រស្មាញដែលកំពុងលេចឡើងនៃចំណុចប្រទាក់សំឡេង និងការបង្ហាញឆ្លាតវៃពីចុងដល់ចប់ អ្នកអភិវឌ្ឍន៍គួរតែពិចារណាយ៉ាងម៉ត់ចត់អំពីវិធីសាស្រ្តកូនកាត់ចំពោះចំណុចប្រទាក់។

ការបង្កើនប្រសិទ្ធភាព និងល្បឿននៃការបង្កើតការនិយាយ និងការទទួលស្គាល់ប្រព័ន្ធបានធ្វើឱ្យវាអាចប្រើប្រាស់វានៅក្នុងកម្មវិធី និងតំបន់ដូចជាឧទាហរណ៍៖

• យោធា (ពាក្យបញ្ជាជាសំឡេងនៅក្នុងយន្តហោះ ឬឧទ្ធម្ភាគចក្រ ឧទាហរណ៍ F16 VISTA)

• ប្រតិចារិកអត្ថបទដោយស្វ័យប្រវត្តិ (ការនិយាយទៅអត្ថបទ)

• ប្រព័ន្ធព័ត៌មានអន្តរកម្ម (សុន្ទរកថានាយករដ្ឋមន្ត្រី វិបផតថលសំឡេង)

• ឧបករណ៍ចល័ត (ទូរស័ព្ទ ស្មាតហ្វូន ថេប្លេត)

• មនុស្សយន្ត (Cleverbot - ប្រព័ន្ធ ASR រួមបញ្ចូលគ្នាជាមួយបញ្ញាសិប្បនិម្មិត)

• យានជំនិះ (ការគ្រប់គ្រងគ្រឿងបន្លាស់រថយន្តដោយមិនប្រើដៃ ដូចជា Blue & Me)

• កម្មវិធីផ្ទះ (ប្រព័ន្ធផ្ទះឆ្លាតវៃ)។

ប្រយ័ត្នសុវត្ថិភាព!

រថយន្ត គ្រឿងប្រើប្រាស់ក្នុងផ្ទះ កំដៅ/ត្រជាក់ និងប្រព័ន្ធសុវត្ថិភាពផ្ទះ និងឧបករណ៍ប្រើប្រាស់ក្នុងផ្ទះជាច្រើនកំពុងចាប់ផ្តើមប្រើចំណុចប្រទាក់សំឡេង ដែលជារឿយៗផ្អែកលើ AI ។ នៅដំណាក់កាលនេះ ទិន្នន័យដែលទទួលបានពីការសន្ទនារាប់លានជាមួយម៉ាស៊ីនត្រូវបានបញ្ជូនទៅ ពពកគណនា. វាច្បាស់ណាស់ថាអ្នកទីផ្សារចាប់អារម្មណ៍នឹងពួកគេ។ ហើយមិនត្រឹមតែពួកគេប៉ុណ្ណោះទេ។

របាយការណ៍ថ្មីៗពីអ្នកជំនាញសន្តិសុខ Symantec ណែនាំថា អ្នកប្រើប្រាស់ការបញ្ជាដោយសំឡេងមិនត្រូវគ្រប់គ្រងមុខងារសុវត្ថិភាពដូចជា សោទ្វារទេ ទុកអោយតែប្រព័ន្ធសុវត្ថិភាពក្នុងផ្ទះ។ ដូចគ្នាដែរចំពោះការរក្សាទុកពាក្យសម្ងាត់ ឬព័ត៌មានសម្ងាត់។ សុវត្ថិភាពនៃបញ្ញាសិប្បនិម្មិត និងផលិតផលឆ្លាតវៃ មិនទាន់ត្រូវបានសិក្សាគ្រប់គ្រាន់នៅឡើយ។

នៅពេលដែលឧបករណ៍នៅទូទាំងផ្ទះស្តាប់គ្រប់ពាក្យ ហានិភ័យនៃការលួចចូលប្រព័ន្ធ និងការប្រើប្រាស់ខុសក្លាយជាកង្វល់ដ៏ធំមួយ។ ប្រសិនបើអ្នកវាយប្រហារចូលប្រើបណ្តាញមូលដ្ឋាន ឬអាសយដ្ឋានអ៊ីមែលដែលពាក់ព័ន្ធរបស់វា ការកំណត់ឧបករណ៍ឆ្លាតវៃអាចត្រូវបានផ្លាស់ប្តូរ ឬកំណត់ឡើងវិញទៅការកំណត់របស់រោងចក្រ ដែលនឹងនាំឱ្យបាត់បង់ព័ត៌មានដ៏មានតម្លៃ និងការលុបប្រវត្តិអ្នកប្រើប្រាស់។

ម្យ៉ាងវិញទៀត អ្នកជំនាញផ្នែកសន្តិសុខភ័យខ្លាចថា AI និង VUI ដែលជំរុញដោយសំឡេង មិនទាន់មានភាពឆ្លាតវៃគ្រប់គ្រាន់ក្នុងការការពារយើងពីការគំរាមកំហែងដែលអាចកើតមាន និងបិទមាត់របស់យើងនៅពេលដែលមនុស្សចម្លែកសុំអ្វីមួយ។