تصنيع كلامي

تصنيع الكلام أو اصطناع الكلام أو تخليق الكلام (برنامج القارئ الآلي للنصوص )هو إنتاج اصطناعي للكلام البشري. ويسمى نظام الكمبيوتر المستخدم لهذا الغرض خطاب كمبيوتر أو توليف الكلام، ويمكن تنفيذها في منتجات البرامج أو الأجهزة. النص إلى كلام (TTS) نظام تحويل لغة النص العادي إلى الكلام؛ أنظمة أخرى تجعل التمثيل اللغوي الرمزي مثل تحويل نسخ لفظي إلى كلام.[1] يمكن إنتاج الكلام المركب بواسطة وصل أجزاء من الحديث المسجل والذي يتم تخزينه في قاعدة بيانات. فالأنظمة تختلف في حجم وحدات تخزين الكلام. كما أن نظام مخازن الهواتف أو diphone يوفر أكبر مجموعة إنتاج صوتي، ولكن قد تفتقر إلى الوضوح. فاستخدماتها محددة المجال، ولتخزين الكلمات أو الجمل بأكملها بحيث يسمح لإنتاج عالي الجودة بدلا من ذلك يمكن للمازج الصوتي أن يدمج نموذج الجهاز الصوتي ذو خصائص أخرى للصوت البشري لإنشاء إخراج صوتي «اصطناعي» تماما.[2] TTS أو Text-to-Speech هي تقنية تكنولوجية لمحاكاة الصوت البشري باستعمال الحاسوب أو أنظمة نطق مختلفة. فالمهمة الرئيسية لمحرك TTS هي تحويل الكلمات المكتوبة أو المخزنة على شكل نصوص إلى كلمات منطوقة بصوت بشري. من أشهر الشركات التي تطور تقنية للغة العربية هي شركة صخر للحاسب الآلي.

جودة تخليق الكلام(القراءة الالية)

يتم تقييمها قياساً على التشابه مع صوت الإنسان وقدرته على أن يكون مفهوماً بشكل واضح. يسمح البرنامج الذكي تحويل النص إلى كلام للناس الذين يعانون من ضعف البصر أو إعاقة قراءة للاستماع إلى الأعمال المكتوبة على كمبيوتر المنزل. وشملت العديد من أنظمة تشغيل الكمبيوتر لتخليق الكلام منذ أوائل التسعينات.

ويتألف نظام تحويل النص إلى كلام أو «المحرك» من جزئين:[3] معالج الواجهة الأمامية الأمامي ومعالج الواجهة الخلفي.

مهام معالج الواجهة الأمامية

أولا: أنه يحول النص الخام الذي يحتوي على رموز مثل الأرقام والمختصرات إلى ما يعادل كلمات مكتوبة بها. وغالبا ما تسمى هذه العملية تطبيع النص، ما قبل المعالجة، أو ترميز' ' الواجهة الأمامية ثم يعين نسخ لفظي في علوم الكمبيوتر، التحليل المعجمي هو عملية تحويل سلسلة من الأحرف (كما هو الحال في برنامج كمبيوتر أو صفحة ويب) إلى سلسلة من الرموز (سلاسل مع «معنى» محدد) بالنسبة لكل كلمة، والأجزاء، وتحديد النص في وحدة لحنية، مثل شبه جملة شرط، والجملة. ويطلق على عملية تعيين التدوين الصوتي لعبارة أي تحويل النص إلى صوت أو حرف من حروف اللغة -إلى صوت تحويل. التدوين الصوتي ومعلومات علم العروض التي يشكلون معا التمثيل اللغوي الرمزي الذي يتم إخراجه من قبل الواجهة الأمامية. والواجهة الخلفية، غالبا ما يشار إليها باسم المزج أو التوليف - ثم تقوم بتحويل التمثيل اللغوي الرمزي إلى صوت. في بعض الأنظمة، فإن هذا الجزء يشمل حسابات تستهدف علم العروض "" (درجة الصوت فترات الصوت)،[4] وهو بعد ذلك يحدد الخطاب المفترض على الإنتاج الصوتي.

Overview of a typical TTS system

التاريخ

قبل فترة طويلة من اختراع معالجة الإشارات الإلكترونية، كان هناك أولئك الذين حاولوا بناء آلات لخلق كلام الإنسان. بعض الأساطير الأولى التي تسرد وجود الرأس الوقحة ^{[الإنجليزية]} تتضمن ذكر البابا سيلفستر الثاني (1003 م)، ماغنوس (1198-1280)، وروجر بيكون (1214-1294).

في 1779، والعالم الدانماركي كريستيان كراتزنشتاين، الذي بعمل في أكاديمية العلوم الروسية، الذي بنى نماذج حول أداة إخراج الصوت البشرى التي يمكن أن تنتج خمسة أصوات أحرف علة طويلة (ويكيبيديا:الألفبائية الصوتية الدولية التدوين، فهي‎[a:]‏, ‎[e:]‏, ‎[i:]‏, ‎[o:]‏ and ‎[u:]‏).[5] وأعقب هذا تشغيل «آلة التحدث لفولفجانغ فون كمبلين من قبل كير -» من قبل فولفغانغ فون كمبلين من برسبورغ، المجر، هو موضح في ورقة 1791.[6] هذا الجهاز أضاف نماذج من اللسان والشفتين، مما مكنها من إنتاج أحرف صامتة وكذلك أحرف العلة. في 1837، تشارلز يتستون أنتج «الآلة الناطقة» على أساس تصميم فون كمبلين، وفي 1857، بني M. فابر في «يوفون». وقد بعث تصميم يتستون في 1923 من قبل باجيت.[7]

مراجع

Allen، Jonathan؛ Hunnicutt، M. Sharon؛ Klatt، Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN:0-521-30641-8. مؤرشف من الأصل في 2021-03-07.
Rubin، P.؛ Baer، T.؛ Mermelstein، P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. ج. 70 ع. 2: 321–328. DOI:10.1121/1.386780.
van Santen، Jan P. H.؛ Sproat، Richard W.؛ Olive، Joseph P.؛ Hirschberg، Julia (1997). Progress in Speech Synthesis. Springer. ISBN:0-387-94701-9.
Van Santen، J. (أبريل 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language. ج. 8 ع. 2: 95–128. DOI:10.1006/csla.1994.1005.
History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006 نسخة محفوظة 27 أبريل 2014 على موقع واي باك مشين.
Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine," J. B. Degen, Wien). (بالألمانية)
Mattingly، Ignatius G. (1974). Sebeok، Thomas A. (المحرر). "Speech synthesis for phonetic and phonological models" (PDF). Current Trends in Linguistics. Mouton, The Hague. ج. 12: 2451–2487. مؤرشف من الأصل (PDF) في 2016-03-04.

بوابة علم الحاسوب
بوابة تقانة المعلومات

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Allen، Jonathan؛ Hunnicutt، M. Sharon؛ Klatt، Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN:0-521-30641-8. مؤرشف من الأصل في 2021-03-07.

[2] Rubin، P.؛ Baer، T.؛ Mermelstein، P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. ج. 70 ع. 2: 321–328. DOI:10.1121/1.386780.

[3] van Santen، Jan P. H.؛ Sproat، Richard W.؛ Olive، Joseph P.؛ Hirschberg، Julia (1997). Progress in Speech Synthesis. Springer. ISBN:0-387-94701-9.

[4] Van Santen، J. (أبريل 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language. ج. 8 ع. 2: 95–128. DOI:10.1006/csla.1994.1005.

[Helsinki-5] History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006 نسخة محفوظة 27 أبريل 2014 على موقع واي باك مشين.

[6] Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine," J. B. Degen, Wien). (بالألمانية)

[7] Mattingly، Ignatius G. (1974). Sebeok، Thomas A. (المحرر). "Speech synthesis for phonetic and phonological models" (PDF). Current Trends in Linguistics. Mouton, The Hague. ج. 12: 2451–2487. مؤرشف من الأصل (PDF) في 2016-03-04.

معالجة اللغات الطبيعية
مواضيع عامة	أصول نصية Speech corpus استبعاد الكلمات الشائعة نموذج حقيبة الكلمات ذكاء اصطناعي مثالي n-gram (Bigram، Trigram)
تنقيب في النصوص	تجزئة النص تصنيف أقسام الكلام Text chunking ‏ Compound term processing Collocation extraction تشذيب Lemmatisation التعرف على الكيانات المسماة Coreference resolution ‏ تحليل المشاعر Concept mining تجزئة فك التباس دلالة الكلمة Terminology extraction Truecasing
التلخيص التلقائي	Multi-document summarization استخراج الجمل Text simplification
ترجمة آلية	ترجمة بمساعدة الحاسوب Example-based Rule-based
التعريف التلقائي للبيانات وجمعها	تعرف على الكلام تصنيع صوتي تعرف ضوئي على الرموز توليد اللغات الطبيعية
Topic model	Pachinko allocation Latent Dirichlet allocation Latent semantic analysis
المراجعة بمساعدة الحاسوب	Automated essay scoring Concordancer مدقق نحوي النص التنبؤي مدقق إملائي Syntax guessing
Natural language ‏ user interface	Automated online assistant روبوت الدردشة أدب تفاعلي Question answering
مكتبات برمجية	أن أل تي كاي (NLTK) ساي كيت ليرن (scikit-learn)

ضبط استنادي
وطنية	المكتبة القومية الإسرائيلية (J9U) قاعدة البيانات الوطنية التشيكية (NLCR AUT)
أخرى	موسوعة ميوزيك برينز (MBI)

تصنيع كلامي

جودة تخليق الكلام(القراءة الالية)

مهام معالج الواجهة الأمامية

التاريخ

اقرأ أيضًا

مراجع