روش تمایز سبک ها توسط شاخص های فراکتال و آماری متن به عنوان دنباله ای از تعداد حروف در کلمات آن

آخرین مطالب

امکانات وب

روش تمایز سبک ها توسط شاخص های فراکتال و آماری متن به عنوان دنباله ای از تعداد حروف در کلمات آن

روش تجزیه و تحلیل سبک های متون مختلف در مقاله تهیه شده است. توالی عددی عدد صحیح به عنوان مدل استفاده می شود. عناصر دنباله تعداد حروف در کلمات متن است. الگوریتم برای محاسبه مقدار دقیق بعد فراکتال توسعه یافته است. این تعیین مقدار دقیق شاخص Hurst را فراهم می کند. مقدار ثابت وابستگی قدرت محاسبه می شود. شاخص های به دست آمده در جنبه شکستگی اشیاء تحقیق را کاملاً توصیف می کنند.

1. معرفی

یکی از وظایف فوری زبانشناسی در توسعه سیستم های تجزیه و تحلیل متن ، در نظر گرفتن این متن از نظر اشیاء ریاضی است. به این معنا ، متن مورد مطالعه باید توسط یک مدل ریاضی مناسب نمایش داده شود. به عنوان یک مدل متنی ، نویسندگان یک توالی برابر با همبستگی را انتخاب کردند.

جوهر مدل این است که اعداد جایگزین توالی کلمات در متن می شوند. هر عدد با تعداد حروف در کلمات این متن مطابقت دارد. نگارشی در ابتدا می تواند برداشته شود و دنباله را می توان به طور منظم انجام داد. این دنباله شبیه به یک سری زمانی برابر با مقادیر عدد صحیح است. در متن ، چنین دنباله ای به زمان مربوط نمی شود همانطور که در یک سری زمانی آورده شده است اما تابع دنباله ای از کلمات است. با این حال ، این یک شیء ریاضی است ، و همین روش ها را می توان در مورد سری زمانی برای آن اعمال کرد.

اخیراً ، یا به اصطلاح دو دهه گذشته ، رویکرد فراکتال و تجزیه و تحلیل فراکتال روش شناسی آن از نظر سری زمانی بسیار متداول شده است.

تجزیه و تحلیل فراکتال در برنامه های گسترده در مشکلات اقتصادی و مالی مربوط به پردازش سری زمانی استفاده می شود. کارایی تجزیه و تحلیل ، مدل سازی ، شناسایی و پیش بینی پویایی سیستم و همچنین فرآیندهای توسعه پدیده ها و رفتار اشیاء افزایش یافته است. این ماده به طور گسترده در زمینه های مختلف فعالیت های تحقیق و تولید به عنوان ابزاری برای ارائه اولیه شیء مورد مطالعه مورد استفاده قرار می گیرد.

امروزه ، تجزیه و تحلیل فراکتال تقریباً در هر زمینه ای که شامل پردازش داده های مختلف است ، وجود دارد ، زیرا استفاده از چندین ویژگی مهم را برای طبقه بندی ، تفسیر و پیش بینی آنها فراهم می کند. چنین ویژگی هایی شامل ابعاد فراکتال سری زمانی ، شاخص روند سری زمانی Hurst ، ثابت R/S رابطه بین شاخص های تغییر-دامنه سری تجمعی و میانگین ریشه مربع همان سری است.

با این حال ، الهام بخش برای انتشار این مطالعه ، نتایج تجزیه و تحلیل فراکتال بیش از 70 گزیده از متون مختلف حدود 200 کلمه ترجمه شده به هفت زبان بود. متون اصلی به سه زبان با قلم سیریلیک و چهار با لاتین ترجمه شده است. در کل ، مجموعه داده از 560 نمونه تشکیل شده است. تمام متون برای مطالعه مدل در قالب یک توالی برابر با عدد صحیح ارائه شد. نتایج تفاوت معنی داری در پارامترهای فراکتالی به دست آمده نشان داد. علاوه بر این ، از روشهای تجزیه و تحلیل آماری نیز برای این مدل از متون استفاده شده است ، یعنی:

هر متن ، و همچنین ترجمه های آن ، در شاخص های محاسبه شده تفاوت معنی داری نشان داد. علاوه بر این ، بزرگترین بخش مدل های استخراج متن بر روی تجزیه و تحلیل مورفولوژیکی یا احساساتی ساخته شده است. با این حال ، ارائه متن به عنوان یک سری زمانی نیز جالب است. این امکان را به فرد می دهد تا از مدل های دیگر برای مدل سازی و پیش بینی متن استفاده کند ، به خصوص برای کلمه متن یا پیش بینی عبارت.

این مطالعه در مورد تجزیه و تحلیل فراکتال خود متن نیست. با این وجود ، مربوط به استفاده از تجزیه و تحلیل فراکتال در چنین مدلی برای متون مختلف برای شناسایی تفاوت بین آنها در پارامترهای فراکتال است.

فرضیه کار در اینجا به شرح زیر است: ما می توانیم از تجزیه و تحلیل فراکتال برای مدل متن داده شده استفاده کنیم. بنابراین ، این مطالعه با هدف توسعه یک روش تجزیه و تحلیل فراکتال برای یک دنباله عدد صحیح که مطابق با داده های زبانی در یک بازنمایی معین ، یعنی تعداد حروف در کلمات ، بدون همه شخصیت های اضافی است.

متن به عنوان توالی منظم از وقایع تصادفی بدون بازنمایی معنایی ارائه می شود. این امکان را به ما می دهد تا از روشهای کلاسیک تجزیه و تحلیل سری زمانی استفاده کنیم.

مطالب مقاله در سه بخش ارائه شده است: انتخاب و توجیه مدل ، جوهر و ویژگی های کاربرد تجزیه و تحلیل فراکتال در چنین مدلهایی ، و ارائه نتایج تجزیه و تحلیل فراکتال از سبک های مختلف.

2. وضعیت هنر

مدل سازی متن ، به ویژه دستگاه ریاضی ، چیز جدیدی نیست. این مدل در قالب یک دنباله عدد صحیح منظم را می توان به کلاس جریان وقایع فقط به عنوان تعداد تصادفی حروف در کلمات اختصاص داد. در اینجا ، تعداد حروف تصادفی را تعیین می کند ، اما احتمال یک کلمه خاص نیست. در این حالت ، این سؤال بلافاصله مطرح می شود - رابطه بین دنباله کلمات در جملات متن و تعداد حروف در کلمات این جملات چیست؟متأسفانه ، در ادبیات زبانی ، نویسندگان نه پاسخی در مورد وجود چنین الگویی از متن پیدا نکردند و نه اینکه بین تعداد حروف در کلمات و محتوای آنها ارتباطی وجود داشته باشد. با این حال ، تجزیه و تحلیل آماری بیش از 70 قطعه از متون مختلف حدود 200 کلمه و ترجمه آنها به هفت زبان ، در مجموع 490 نسخه ، تفاوت معنی داری در نتایج به دست آمده هنگام استفاده از تجزیه و تحلیل فراکتال نشان داد. از روشهای تجزیه و تحلیل آماری برای این حالت متن ، یعنی آمار توصیفی ، تجزیه و تحلیل همبستگی بین متن اصلی و ترجمه های آن ، تقریب هیستوگرام با تعداد حروف در کلمات و روشهای پویایی غیرخطی استفاده شده است ، مانند موارد زیر:

هر متن ، و همچنین ترجمه های آن ، در شاخص های محاسبه شده تفاوت معنی داری نشان داد. تجزیه و تحلیل انتشارات استفاده گسترده از تجزیه و تحلیل فراکتال و مشروعیت مدل را با یک دنباله عددی منظم عدد صحیح تأیید کرد.

در [1] ، تکنیک تجزیه و تحلیل R/S با بازنمایی شاخص Hurst ارائه شده است ، که نقش ثابت را در نظر می گیرد. روشهای مختلف تعیین ابعاد فراکتال در [2] آورده شده است ، یعنی با استفاده از شاخص Hurst و با استفاده از انتگرال همبستگی ، که به عنوان روش Grassberge r-Procaccia یا الگوریتم شناخته می شود. ارزیابی نماینده Hurst در [3] با سه روش انجام شد: R/S ، DFA و تجزیه و تحلیل موجک ، و همچنین نتایج مقایسه این روش ها. در [4] ، چندین اظهارات در مورد ابعاد فراکتال و شاخص Hurst ارائه شده است.

در [5] ، روشهای تخمین بعد فراکتال ، شاخص Hurst و از همه مهمتر ، روشهای تحلیلی محاسبه ثابت وابستگی قدرت نسبت R/S ارائه شده است. دو روش تعیین-تجزیه و تحلیل R/S و روش بخش-متغیر-در [6] ارائه شده است. این تکنیک متغیر بخش کاملاً نزدیک به تکنیک مورد استفاده نویسندگان این مطالعه است. در [7] ، رابطه بین شاخص Hurst و تجزیه و تحلیل R/S در مورد طبقه بندی یک سری زمانی از بازار ارز ارائه شده است. نشان داده شده است که شاخص Hurst یک متریک است که می تواند اطلاعاتی در مورد همبستگی و ثبات در سری زمانی ارائه دهد. این کتاب [8] یک نمایش واضح ، در دسترس و ساده از خصوصیات ریاضی اشیاء فراکتالی و سری زمانی ، به ویژه بعد فراکتال و شاخص Hurst را ارائه می دهد. در [9] ، ویژگی های روش سلولی تعیین بعد فراکتال آشکار می شود. به طور خاص ، نشان داده شده است که بخشی از سلول های ناقص پر شده در محاسبه گنجانده شده است.

علاوه بر این ، هنگام کاهش اندازه آنها ، مشکل شمارش سلولها افزایش می یابد. در [10] ، تأثیر سر و صدای افزودنی خارجی بر الگوریتم سلولی برای محاسبه شاخص های فراکتال سری زمانی حجم محدود ، تجزیه و تحلیل می شود. مشخص شد که اثر سر و صدا به طرز شگفت آور بزرگی است - یک سر و صدای خارجی نسبتاً کوچک حاکی از افزایش مقدار خطا در سه تا چهار مرتبه از بزرگی بیشتر است. نویز جزئی معمولاً بخشی از هر داده واقعی مورد مطالعه است. همانطور که در این مقاله ذکر شد ، باید هنگام نتیجه گیری بر اساس پارامترهای فراکتالی عددی محاسبه شده برای داده های تجربی ، مراقب باشید. انواع اصلی مدل های مورد استفاده در تحقیقات زبانی و استفاده از آنها برای حل مشکلات مختلف زبانی در [11] در نظر گرفته شده است. در اینجا رویکردهای اصلی برای درک مفهوم مدل در زبانشناسی وجود دارد. در [12] ، رویکردهای مربوط به مدل سازی ریاضی اشیاء زبانی در نظر گرفته شده است ، مصلحت کاربرد روشهای ریاضی اثبات می شود و اصول اساسی ایجاد مدلهای ریاضی مورد بحث قرار می گیرد. برای از بین بردن کاستی های مدلهای موجود اسناد متنی ، مرجع [13] یک شکل یکپارچه از یک مدل معنی دار از متن را ارائه می دهد ، که بر اساس سنتز مدلهای منطق ی-زبانی جملات وی است و الگوریتم برای ساخت چنین مدلی را توصیف می کند. بشردر [14] ، موضوعات نظری استفاده از مدل سازی در زبانشناسی ، با تأکید بر مدل های زبانی و ویژگی های آنها مورد بررسی قرار می گیرد. علاوه بر این ، در جنبه زبانی ، ویژگی های بارز مدل ها و مراحل اصلی ایجاد آنها شرح داده شده است. علاوه بر این ، زمینه های اصلی که روش مدل سازی از نظر کیفی پارادایم تحقیقات زبانی را تغییر داده است. عناصر تئوری و کاربرد جریانهای عدد صحیح در [15] پوشانده شده است. نشان داده شده است که چنین جریانهایی جریانهای معادل ابتدایی از وقایع با مقادیر تصادفی دامنه هستند.

خصوصیات فراکتالی جریان اطلاعات موضوعی از اینترنت در [16] مورد بحث قرار گرفته است و به عنوان پایگاه داده ای برای آزمایش محاسباتی، سیستم نظارت بر اخبار شبکه InfoStream انتخاب شد. روش محاسبه شاخص های هرست برای خوشه تعریف شده توسط موضوع پرس و جو ارائه شده و تفسیری کیفی از نتایج ارائه شده است. در [17] نشان داده شده است که تجزیه و تحلیل جریان های اطلاعات به یکی از روش های اصلی جستجو برای الگوهای عملکرد سیستم جهانی ارتباطات علمی تبدیل شده است.

اصول یکپارچه سازی جریان های اطلاعاتی در منابع [18،19] پوشش داده شده است، که همچنین مدل های ریاضی، عناصر نظریه بازیابی اطلاعات و مفهوم تحلیل متن عمیق (متن کاوی) را به جریان های اطلاعاتی ارائه می دهد.

یکی از حوزه های مهم تحقیقات کمی زبان و گفتار، کار [20] است که به بررسی اطلاعات و ویژگی های آماری متن می پردازد. محاسبات جمله و طول کلمه در آثار R. Ivanychuk آورده شده است. نتایج به دست آمده با شاخص های مشابه در نثر اوکراینی مقایسه شده است.

نمونه ای از سبک کسب و کار رسمی در گزارشی در مورد تمرین آموزشی در [21] آورده شده است. یک سبک گفتار محاوره ای در [22] آورده شده است. در [23] نمونه ای از سبک هنری ارائه شده است. در [24]، نمونه ای از سبک علمی آورده شده است. نمونه ای از سبک روزنامه نگاری در [25] آورده شده است. سبک اعترافی متن به عنوان نمونه در [26] آورده شده است. نمونه ای از سبک معرفتی در [27] آورده شده است. نمونه ای از سبک شعر لینا کوستنکو "و همه چیز در جهان باید تجربه شود" است که در سایت ارائه شده است [28]. متن انگلیسی این مطالعه از وب سایت [29] گرفته شده است.

پردازش تعداد زیادی از متون کوتاه در شبکه های اجتماعی ، همانطور که در [30] نشان داده شده است ، عمدتاً با پنج روش فوق انجام می شود. بیشترین استفاده ، انتخاب پنهان Dirichlet و فاکتورسازی ماتریس های غیر منفی است. ارائه روشمند و عملی تئوری فراکتال ها دقیقاً از نظر پردازش داده ها در [31] آورده شده است. مدل سازی موضوعی به عنوان راهی برای ساختن یک مدل از مجموعه اسناد متنی ، همانطور که در [32] آورده شده است ، تعیین می کند که موضوعاتی از هر یک از اسناد متعلق به کدام است. تجزیه و تحلیل ساختارهای واجی آماری متون به کار اختصاص داده شده است [33]. الگوی تعیین میزان تعامل متون هنری (زمینه درام) و سبک های مکالمه ساخته شده است. در [34] ، تجزیه و تحلیل آماری تلاش می کند تا میزان تعامل زیرین سبک هنری (شعر ، داستان ، درام) را تعیین کند.

متأسفانه ، از انتشارات ارائه شده در این مطالعه در مورد مدل ساختار بصری متن ، از ثابت برای نسبت تنوع استفاده می شود. به همین دلیل دامنه سری تجمعی توالی عددی به انحراف استاندارد آن قابل تشخیص نیست.

3. مواد و روشها

3. 1متن نمایش داده شده توسط یک دنباله منظم از وقایع تصادفی

تجزیه و تحلیل هر سری زمانی باید به ویژگی ها و خصوصیات منبع تولید این سری پاسخ دهد. به عبارت دیگر ، کامل بودن شاخص های به دست آمده نشانگر امکان چنین منبعی است اما ماهیت فیزیکی آن را نشان نمی دهد.

یک نوع از داده های تجربی جریان وقایع یا متغیرهای تصادفی با قانون توزیع آنها است. این جریان از متغیرهای تصادفی گسسته در ادبیات و محققان یک سری زمانی نامیده می شود. ویژگی های یک سری زمانی این است که مقادیر عناصر (سطح) آن با لحظات خاص ثابت ، یعنی. به عنوان مثال ، تعداد محصولات حاصل از حجم داده شده منابع ، تعداد قطعات معیوب در دنباله دسته های منتشر شده از قطعات و غیره.

لحظه های رفع سطح می تواند هر دو سری زمانی معمولی باشد ، یعنی تثبیت در فواصل منظم اتفاق می افتد ، و سری زمانی نامنظ م-تصادفی ، هنگامی که سطح در لحظه های تصادفی ثابت می شود.

اگر ما در مورد رفع سطح به موقع صحبت نمی کنیم ، چنین سریال یک دنباله عددی نامیده می شود. یک تغییر در این دنباله یک دنباله با مقادیر عدد صحیح از مقادیر سطح است.

از نظر بصری ، ماهیت بازنمایی چنین توالی های گسسته ممکن است متفاوت باشد. به عنوان مثال ، در قالب یک نمودار یا یک دنباله منظم از پالس ها با همان مدت ، اما دامنه متفاوت (عمدتا تصادفی) ، مانند شکل 1a. اگر مقادیر عناصر در نقاط و بخش های خطوط دو نقطه مجاور وصل شود ، ما یک نمایش گرافیکی طبیعی از یک فرآیند تصادفی داریم ، مانند شکل 1B.

از آنجا که عناصر دنباله مقادیر عدد صحیح مثبت را می گیرند ، بر روی نمودار ، این مقادیر با تقسیمات مقیاس Ordinate مطابقت دارند. مقیاس Ordinate با مقدار تعداد حروف در کلمات مطابقت دارد و مقیاس Abscissa با ترتیب این کلمات مطابقت دارد.

ما دنباله ای از وقایع تصادفی داریم که توسط یک ژنراتور خاص ارائه شده است. این رویدادها می توانند یک بعدی باشند ، یعنی یک خاصیت را توصیف کنند ، یا چند بعدی باشند. این می تواند با یک بردار از ویژگی های مربوطه (به عنوان مثال ، فراوانی استفاده در فرهنگ لغت ، تعداد مترادف ، درجه ارتباط و غیره) توصیف شود که خصوصیات ، ویژگی ها و روابط آنها را با متن توصیف می کند.

تجزیه و تحلیل چنین دنباله ای به طور مشابه با یک نمونه یا تجزیه و تحلیل سری زمانی انجام می شود. جوهر تفکیک در اینجا به متغیر مستقل که توسط اعداد صحیح در Abscissa نشان داده شده است ، اشاره دارد. این اعداد مجموعه ای از شاخص های عناصر این دنباله هستند.

در بیشتر موارد ، این مجموعه از عناصر را می توان به عنوان عناصر نمونه نمونه معمول در نظر گرفت. با این حال ، اگر حوادث یکی پس از دیگری به طور منظم یا تصادفی اتفاق بیفتد ، ما با یک روند گسسته سر و کار داریم.

یک دنباله منظم از عناصر ، هنگامی که فواصل بین آنها دقیقاً تعریف شده و اندازه آنها را تغییر نمی دهد ، یعنی z i + 1 - z i = δ = c o n s t ؛

در این دیدگاه ، دنباله مشابه یک فرآیند گسسته است زیرا فاصله بین عناصر در واقع مدت زمان عنصر است.

اگر مقادیر عناصر مقادیر عددی باشند ، دنباله عناصر є دنباله ای از نمایش عملکردی خواهد داشت. در این حالت ، مقادیر مثبت عدد صحیح در نظر گرفته می شوند ، یعنی دنباله سطوح به نظر می رسد [2]

و z ، i ⊂ z + مجموعه ، جایی که z مجموعه مقادیر عناصر z i است و من مجموعه ای از شاخص های آنها است.

3. 2تجزیه و تحلیل فراکتال دنباله منظم

اکثریت قریب به اتفاق فرایندهایی که توسعه پدیده ها ، پویایی سیستم ، رفتار اشیاء فردی یا جمعیت را توصیف می کنند ، اشیاء فراکتالی هستند زیرا دارای یک ویژگی فراکتالی مانند شفابخش بودن هستند. به عبارت دیگر ، در دنباله داده ها ، برخی از قطعات به یک معنا مشابه هستند. امروزه ، بسیاری از نشریات حرفه ای و محبوب در زمینه تجزیه و تحلیل فراکتال در زمینه های مختلف مورد علاقه علمی وجود دارد. تجزیه و تحلیل فراکتال در دهه های اخیر به طور گسترده در تحقیقات مدرن در زمینه های مختلف فعالیت شناختی انسان مورد استفاده قرار گرفته است.

نشانگر مربوطه ، که اغلب به عنوان شاخص Hurst ، نشانگر روند یا نماینده Hurst نامیده می شود.

3. 2. 1. روش سلولی برای تعیین بعد فراکتال

بعد فراکتال یک مقدار است که نشان می دهد چگونه یک جسم فضایی را که در آن قرار دارد پر می کند. بعد فراکتال ترجیحاً با روش سلولی تعیین می شود. روش سلولی مبتنی بر ابعاد Hausdorff است که 100 سال پیش پیشنهاد شده و توسط Bezikovich تهیه شده است. جوهر این شاخص این است که در سیستم مختصات دکارتی در تصویر گرافیکی این شبکه های دنباله با اندازه سلول های مختلف قرار گرفته است.

در مرحله بعد ، تعداد سلولها باید برای هر شبکه ای که حداقل یک امتیاز ارائه می شود شمارش شود. پس از محاسبه سلول ها ، یک خط برای هر شبکه بر روی یک نمودار متفاوت ساخته می شود. با این وجود ، در یک سیستم مختصات لگاریتمی مضاعف ، نقاط ترسیم شده اند ، که آبشارهای آن لگاریتم های اندازه سلول شبکه های مورد استفاده هستند ، و Ordinates لگاریتم های تعداد سلول های اشغال شده توسط دنباله سلول هستند. این 4-6 امتیاز برای ساخت یک خط رگرسیون در این سیستم و تقریب آن با یک روند خطی استفاده می شود. خط رگرسیون ساخته شده دارای یک عامل زاویه ای منفی است. مقدار مطلق این ضریب زاویه ای مقدار بعد فراکتال برای یک دنباله معین از عناصر است.

3. 2. 2. تعیین شاخص Hurst

روشهای مختلفی برای تعیین شاخص Hurst وجود دارد. نویسندگان از اتصال ابعاد فراکتال با عملکرد قدرت G. Hearst - شاخص Hurst در قالب یک رابطه ساده ، نشان داده شده توسط B. Mandelbrot [2] استفاده کردند:

نمودارهای دنباله مساوی، با شبکه هایی که روی آنها قرار گرفته اند، در شکل 2 نشان داده شده است. نشانگرهای روی این نمودار موقعیت عناصر دنباله را نشان می دهند. خطوط نور نشان دهنده مقیاس محور مختصات است. خطوط تیره سلول های شبکه و ابعاد آنها را تجسم می کند. این دو مقدار اساس تعدادی از شاخص های تجزیه و تحلیل فراکتال را تشکیل دادند.

3. 2. 3. تعیین ثابت وابستگی درجه

در اینجا، توان H در وابستگی توان بین دو شاخص تغییر برای یک سری عددی مشابه ظاهر می‌شود. واقعیت این است که تغییر مقادیر سطوح یک دنباله عددی یا سری زمانی را می توان با دو شاخص نشان داد: انحراف استاندارد Sn و محدوده تعدادی از مجموع تجمعی Rn برای همان سری Yn = y 1, y 2 , … , y n . رابطه بین این مقادیر با وابستگی قدرت زیر مطابقت دارد [2]:

این وابستگی با دو شاخص مشخص می شود: یک شاخص C ثابت و یک نشانگر H. تابع (3)، به عنوان یک قاعده، همیشه با تجزیه و تحلیل فراکتال همراه است، به ویژه برای تعیین شاخص H. این تابع به دو پارامتر C و H بستگی دارد و برای مقادیر شناخته شده سایر کمیت ها، تعیین مقدار H در زمانی که ثابت C ناشناخته است غیرممکن است. در عمل، مقادیر اغلب C = 0، 5 گرفته می شود، که نادرست و غیر قابل توجیه است. متأسفانه تعداد قابل توجهی از انتشارات وجود دارد که ثابت همراه با متغیر مستقل به توان H افزایش یافته است، مانند C ⋅ n H، اما چنین اقدامی یک خطای فاحش است.

3. 3. مدل تحلیل فراکتال

شاخص های اصلی نتیجه آن عبارتند از بعد فراکتال D، شاخص هرست و ثابت C.

4. نتایج

4. 1. آماده سازی متن

در این تحقیق از دنباله‌های هم‌فاصله عناصر صحیح به عنوان مدل متن استفاده شد. متون ارائه شده توسط این مدل ها فقط دنباله کلمات و تعداد حروف این کلمات را در نظر می گیرند. ساخت چنین مدل هایی به این صورت است که متون انتخاب شده برای تحقیق به این ترتیب به دنباله های عددی تبدیل می شوند.

نگارشی و هر شخصیت دیگر ، از جمله آپواستروف و هیفن ، برداشته شد. جداکننده بین کلمات یک فضا است. از آنجا که معابر انتخاب شده متون شامل حجم های مختلف کلمات بود ، تصمیم گرفته شد حجم آنها را به همان اندازه ، یعنی 150 کلمه محدود کند. واقعیت این است که برای تجزیه و تحلیل فراکتال ، حجم عناصر دنباله یک متغیر مستقل است و مقدار آن بر شاخص های محاسبه شده تأثیر می گذارد. در این حالت ، ما در مورد روش تجزیه و تحلیل فراکتال صحبت می کنیم. بنابراین ، هنگام انجام چنین تحلیلی برای چندین متن مختلف ، همه آنها باید در شرایط یکسان باشند. این باعث افزایش مشروعیت استفاده از تجزیه و تحلیل فراکتال ، به ویژه در مشکلات شناسایی متن می شود.

متن تمیز شده به عنوان یک بردار دنباله کلمات نشان داده شده است. شکل 2 مدلی از سبک متن مکالمه را به عنوان دنباله ای از کلمات و تعداد حروف در کلمات نشان می دهد.

برای اجرای یک مطالعه تجربی ، ابزار اصلی اندازه گیری آن یک شبکه است ، بسته به حداکثر تعداد حروف به قول متن مورد مطالعه ، اندازه سلولهای شبکه تعیین می شود. نتیجه یک جدول از دو ستون است: سمت چپ برای کلمات و سمت راست برای تعداد حروف موجود در آنها.

4. 2اندازه سلولهای شبکه را تنظیم کنید

حداقل اندازه شبکه سلولها به این معنی است که برای یک توالی عددی برابر ، مقدار هر یک از عناصر آن دارای یک سلول و تنها است. بر اساس این واقعیت که سلولهای شبکه از شکل یک مربع برخوردار هستند ، اندازه آنها به شدت توسط تقسیمات مقیاس مرتبه تعیین می شود. در این حالت ، قرار دادن حداقل شبکه در نمودار یک دنباله معین به این معنی است که مقدار هر عنصر نمایش داده شده توسط مختصات مربوطه z x i y من در یک سلول بومی سازی می شود و تعداد سلولهای اشغالی برابر با تعداد عناصر خواهد بوددر این دنباله

4. 3تعیین تعداد سلول ها

برای تعیین تعداد سلول های یک شبکه خاص ، لازم است حداقل اندازه آنها و فرکانس تغییر آن را تعیین کنید. واقعیت این است که اگر دنباله منظم باشد ، هر شبکه باید با تفکیک دنباله مطابقت داشته باشد ، یعنی اندازه سلولهای شبکه یک اندازه از اندازه سلول برای یک عنصر است. شکل 2 نشان می دهد (خطوط سیاه) چند سلول حداقل (به رنگ خاکستری) ، حاوی یک عنصر دنباله با حداقل مقدار یک حرف ، به عنوان مثال ، کلمه № 8. برای تعیین تعداد سلول های شبکهاین اندازه ، نمودار گروه های دنباله دو ، سه ، چهار ، پنج و شش عنصر را پوشش می دهد.

این شکل به وضوح نشان می دهد که نشانگرهای عناصر دنباله به اندازه سلول های شبکه چگونه بومی سازی می شوند. مواضع مراکز نشانگر همزمان با تقسیم مقیاس تعداد حروف برای مقادیر عدد صحیح عناصر است. این تعداد سلول دقیق را برای دنباله ای از مقادیر عدد صحیح فراهم می کند.

تعداد سلولهای شبکه برای هر گروه تعیین می شود و سلولهای عمودی را با حداقل و حداکثر مقادیر عناصر در هر گروه پوشش می دهد.

این به معنای محاسبه زیر است: برای گروه های دو عنصر ، اندازه سلولهای شبکه 2 2 2 است که تقسیم مقیاس در محور مرتبه برای مقادیر عناصر است ، برای گروهی از سه عنصر 3 × است. 3 طبق تقسیم این مقیاس و به همین ترتیب برای گروه های دیگر.

تعداد اندازه مش یا اندازه گروه ترجیحاً 4 تا 5 است و برای محاسبه بیشتر بعد فراکتال کاملاً کافی است (شکل 3).

برای هر گروه و برای هر شبکه ، باید مقدار بین حداکثر و حداقل مقادیر عناصر موجود در این گروه را محاسبه کرد و این مقدار را با اندازه سلول شبکه تقسیم کرد. بدیهی است که اندازه گروه و اندازه سلول باید مطابقت داشته باشد ، و Q M یا تعداد سلول های یک شبکه خاص به شرح زیر است:

در جایی که z p m عنصر دنباله است ، m تعداد (اندازه سلول ها) شبکه است ، p تعداد گروه های دنباله ای برای یک شبکه خاص است و D m اندازه سلول شبکه است.

در نتیجه جمع آوری مقادیر در پرانتز ، تعداد سلول ها به عنوان Q m به دست می آیند. مقدار Q M به طور کلی یک عدد کسری است ، اما این مقدار دقیق تعداد سلول های یک اندازه معین است که یک دنباله معین را پوشش می دهد.

4. 4تعیین بعد فراکتال D دنباله

بعد فراکتال با روش سلول Hausdorf-Bezikovich محاسبه می شود. این روش دارای دو معایب قابل توجه است. نکته اول این است که ، در صورت استفاده مستقیم ، مقادیر تورم تعداد سلول ها را می دهد و در محاسبات خطای مربوطه را ایجاد می کند. دومین نقطه ضعف این روش این است که شمارش تعداد سلول ها ، به ویژه برای ردیف های طولانی ، نیاز به توسعه برنامه های ویژه دارد ، که به محققان نیاز دارد تا برنامه ریزی کنند یا حداقل برنامه های مناسب را پیدا کنند و یاد بگیرند که از آنها استفاده کنند.

در این مطالعه ، نویسندگان روشی را برای محاسبه بعد فراکتال پیشنهاد و پیاده سازی کردند. این روش با استفاده از مقدار دقیق تعداد سلول ها ، اصلاح روش کلاسیک است. فرمول اول سیستم (4) از الگوریتم محاسبه D پیروی می کند ، که جوهر آن به شرح زیر است. بعد فراکتال پارامتر عملکرد اتصال است که وابستگی رابطه را مشخص می کند.

یعنی نسبت لگاریتم تعداد سلولهای شبکه (با تعداد M) لگاریتم اندازه سلول Δ M را در این شبکه پوشش می دهد. مقدار این پارامتر به عنوان مقدار مطلق ضریب زاویه ای نقطه تقریب نمودار خط در سیستم مختصات لگاریتمی دوتایی ، که مربوط به log abscissa δ و Ordinate log n است تعریف شده است.

همانطور که در جدول 1 نشان داده شده است ، برای تعیین بعد فراکتال ، لازم است بین تعداد سلولهای شبکه ای که نمودار دنباله و اندازه سلول شبکه را پوشش می دهد ، رابطه برقرار شود.

بگذارید شبکه با اندازه سلول به طور متناوب در نمودار دنباله قرار گیرد تا تعداد سلول ها: 2 × 2 ، 3 3 3 ، 4 4 4 ، 5 5 5 و 6 × 6 باشد.

ستون O ، با شروع سلول O2 حاوی تعداد حروف برای یک متن خاص است ، همانطور که در جدول 1 نشان داده شده است.

در ردیف اول ستون های P ، Q ، R ، S و T در سلولهای P1 ، Q1 ، R1 ، S1 و T1 اندازه اسمی گروه تقسیم شده توسط دنباله نشان داده شده است. مطابق با اندازه سلول یک شبکه خاص است. در سلولهای P2 ، Q2 ، R2 ، S2 و T2 ، فرمول ها مقدار اندازه سلول فراکتال را نشان می دهند.

فرمول‌ها مرحله (ج) را تشکیل می‌دهند تا تعداد سلول‌های یک گروه از کلمات را محاسبه کنند که با اندازه سلول‌ها برای شبکه‌های خاص مطابقت دارند. با این حال، در نتیجه چنین محاسبه "لغزشی"، به دلیل تکمیل خودکار، تقسیم دنباله به گروه ها از بین می رود. بنابراین، برای به دست آوردن مقدار دقیق تعداد سلول های شبکه ای که نمودار را پوشش می دهد، مطابق با فرمول (5)، باید مقدار مجموع آنها را تعیین کرد. بنابراین، برای شبکه ای با اندازه سلول های 2 × 2، باید مجموع سلول های P2، P4، P6،… را محاسبه کرد. برای یک شبکه 3 × 3، لازم است مجموع سلول های Q2، Q5، Q8، ... محاسبه شود. برای یک شبکه 4 × 4، لازم است مجموع سلول های R2، R6، R10،… را محاسبه کنید. برای یک شبکه 5 × 5 لازم است مجموع سلول های S2، S7، S12،… را محاسبه کنید. برای شبکه 6 × 6، لازم است مجموع سلول های T2، T8، T14، و … محاسبه شود. برای یافتن تعداد سلول ها برای یک شبکه خاص، فقط مقادیر معینی برای هر ستون P، Q، R، S و T باید محاسبه شود. به عبارت دیگر، مجموع هر خانه دوم، با شروع از اول، برای ستون P باید محاسبه شود. ما باید مجموع هر سلول سوم برای ستون Q، هر خانه چهارم برای R، هر خانه پنجم برای S، و هر خانه ششم برای T محاسبه کنیم. باید هر بار محاسبه را از خانه اول شروع کنیم.

برای یافتن مقدار بعد فراکتال، جدول تناظر بین اندازه سلول های شبکه و تعداد سلول های این شبکه محاسبه شده است (جدول 2).

همانطور که در شکل 4 نشان داده شده است، نموداری را در مقیاس لگاریتمی دوگانه با توجه به مقادیر لگاریتم های داده شده می سازیم.

مقدار بعد فراکتالی D با مقدار مطلق ضریب زاویه ای معادله خط روند نمودار تعیین می شود، یعنی بعد فراکتالی این دنباله از مقادیر گسسته در مورد متن برابر با D = است. 1. 3105.

4. 5. تعیین ضریب هرست

شاخص هرست نوع فرآیندی را مشخص می کند که بر دینامیک سری های زمانی یا عددی غالب است. شاخص هرست سهم هرج و مرج موجود در این سری را نشان می دهد. همانطور که می دانید سه نوع رفتار وجود دارد: نوسانات در مقادیر عناصر سریال. تغییرات تصادفی در مقادیر سطوح، نزدیک به حرکت براونی. و وجود یک روند.

امروزه ، مقادیر شاخص Hurst با روش های مختلف تعیین می شود ، عمدتا با استفاده از معادله (3) ، و غفلت از ثابت c. این شاخص از معادله دوم موجود در سیستم (4) ، یعنی از برابری مشخص شده توسط B. Mandelbrot ، با استفاده از فرمول (2) آسان است. به عبارت دیگر ، بر خلاف رویکرد شرح داده شده در اکثریت قریب به اتفاق انتشارات مربوطه ، مقدار نماینده H با ارزش بعد فراکتال d تعیین می شود. بنابراین ، با استفاده از فرمول (2) ، مقدار شاخص Hurst برابر H = 2 - D است.

4. 6تعیین نسبت R/S ثابت

نسبت R/S نسبت دو شاخص از تغییرات مربوط به میانگین حسابی است. تغییر نسبی یکی از این مقادیر بدون در نظر گرفتن اندازه اولیه آنها باعث تغییر نسبی متناسب با مقدار دیگر می شود. با توجه به ماهیت خود ، این رابطه یک تابع قدرت است و به طور رسمی با معادله سوم سیستم (4) توصیف می شود. از این معادله برای یک مقدار شناخته شده H ، عبارت برای مقدار ثابت فرم زیر را دارد:

اینجا ، r_nدامنه سری تجمعی ، s است_nانحراف استاندارد است ، C ثابت است ، n مقدار داده ها و H نماینده Hurst است. در واقع C ثابت ضریب تناسب است و ماهیت ژنراتور هر داده ، خواه یک دنباله عددی و یا یک سری زمانی را مشخص می کند.

در نتیجه محاسبات مربوطه در مورد مدل های متون سبک های مختلف ، مقادیر شاخص های فراکتال در جدول 3 و جدول 4 آورده شده است.

تغییر در شاخص های فراکتال در رابطه با یک سبک خاص از متون انتخاب شده در شکل 5a نشان داده شده است. نمودار مقادیر شاخص های فراکتال در شکل 5b برای متن انگلیسی نشان داده شده است. از آنجا که مقدار مقیاس سری تجمعی به طور قابل توجهی از مقدار شاخص های دیگر فراتر می رود ، یوگی از نمودارها خارج می شود.

از آنجا که هدف اصلی ایجاد اختلافات بین اشیاء زبانی و سبک ها بود و با توجه به اینکه ترکیب شاخص ها و سبک ها بسیار متفاوت است ، تصمیم گرفته شد تا تجزیه و تحلیل خوشه ای انجام شود. در اینجا ، اشیاء تجزیه و تحلیل سبک هستند و ویژگی های آنها شاخص های فراکتال و آماری حاصل است. تجزیه و تحلیل خوشه ای با توجه به روش شرح داده شده در [35،36،37] انجام شد. نتایج این تجزیه و تحلیل در جدول 5 برای فاصله بین اشیاء و گروه ها آورده شده است و توسط دندروگرام مربوطه در شکل 6 نمایش داده می شود.

بنابراین ، با توجه به محاسبات مبتنی بر مدل نویسندگان ، مجموعه ای از شاخص های فراکتال به دست آمد. داده های به دست آمده با فرضیه کار و هدف از مطالعه مطابقت دارند ، زیرا آنها تفاوت های موجود در متون و قطعات را نشان می دهند.

5. بحث

نتایج مدل به دست آمده ، به طور کلی ، فرضیه ای در مورد تفاوت شاخص های فراکتال ، هر دو برای متونی که از نظر سبک و برای بخش هایی از یک متن متفاوت هستند ، تأیید می کند. با این حال ، باید دو اظهار نظر زیر بیان شود

اول ، هر سبک متن دارای همان شکل پاراگراف ، غرفه ، نگارشی و غیره است. این عناصر در مدل ناپدید می شوند. در نتیجه ، متون ویژگی های سبک خاص خود را از دست می دهند. با این حال ، نتایج مطالعه نشان می دهد که چنین تفاوت هایی هنوز رخ می دهد.

بنابراین ، نتایج به دست آمده تنها اولین تلاش برای آزمایش فرضیه در مورد ارزش علمی و عملی چنین مدل متنی در زبانشناسی محاسباتی و هوش مصنوعی در تجزیه و تحلیل متن است. با این وجود ، به طور کلی ممکن است به لحظات زیر توجه داشته باشید:

از نظر شاخص های فراکتال ، سبک شعر دارای مهمترین ارزش بعد فراکتال است و سبک مکالمه کمترین ارزش را دارد. به نظر ما ، این می تواند با این واقعیت توضیح داده شود که زبان محاوره ای عمدتا از کلمات کوتاه استفاده می کند ، و سبک شعر از جفت های قافیه ای از کلمات استفاده می کند ، که می تواند بسیار طولانی باشد.

ارزشهای ابعاد فراکتال برای سبک هنری ، اعتراف ، علمی و معرفتی بسیار نزدیک است. این را می توان به شرح زیر توضیح داد: دو سبک اول بر درک محتوا توسط یک خواننده متوسط متمرکز است و دو نفر دوم قبلاً روی یک خواننده خاص ، یعنی متخصص متمرکز شده اند. شیوه تجارت و روزنامه نگاری کاملاً نزدیک است.

شاخص Hurst به شدت با بعد فراکتال مرتبط است. برای تفسیر آن نیاز به تجزیه و تحلیل معنای متن دارد. واقعیت این است که این شاخص روند نوسانات سطح توالی عددی را توصیف می کند. بنابراین ، مشکل چگونگی اتصال آن با اندازه متن وجود دارد.

ثابت روی مجموعه توابع دو پارامتر پارامتر موقعیت یا مقیاس است. از نظر فیزیکی ، این ثابت ماده ، محیط و شرایط را مشخص می کند. از نظر مشکلات ریاضی ، از حل معادلات دیفرانسیل و انتگرال ها ناشی می شود. از جدول 3 می توانیم طبقه بندی زیر را تشکیل دهیم: برای متون تجارت و روزنامه نگاری ، کمترین مقدار را دارد (0. 26 و 0. 25). برای متون محاوره ، مقدار کمی بالاتر است (0. 33). برای متون هنری ، علمی و معرفتی ، ارزش حتی بیشتر است (به ترتیب 38/0 ، 0. 39 و 0. 402). برای متون و اشعار اعتراف ، مقدار آن بزرگترین (به ترتیب 0. 46 و 0. 68) است. مکاتبات شاخص های فراکتال به این سبک ها مشکل ساز است.

سبک روزنامه نگاری دارای کمترین مقدار عملکرد قدرت ثابت است و سبک شاعرانه دارای مهمترین ارزش این ثابت است. مقدار این ثابت تقریباً سه بار متفاوت است و این فقط برای هشت متن کوتاه است.

براساس شاخص های آماری ، مهمترین مقدار متوسط طول کلمه برای سبک متن علمی کمی کمتر است. سبک تجارت (6. 42 و 6. 36) و همچنین سبک های هنری ، اعتراف و شاعرانه دارای طول متوسط نزدیک (به ترتیب 4. 22 ، 4. 34 و 4. 37) هستند. سبک های روزنامه نگاری و معرفتی نیز کاملاً نزدیک به این شاخص (به ترتیب 5. 43 و 5. 44) هستند و یک سبک مکالمه جداگانه (4. 76) وجود دارد. ارزش شاخص دو سبک اول شاخص ها را می توان با حضور اصطلاحات طولانی در متون توضیح داد: فنی ، اقتصادی ، سیاسی و سایر موارد. سبک های روزنامه نگاری و معرفتی نسبتاً زیاد اما تقریباً همان طول کلمه متوسط دارند.

ارزشهای انحراف استاندارد برای سبکهای هنری ، اعتراف و معرفتی کوچکترین (به ترتیب 2. 38 ، 2. 33 و 2. 34) هستند و بزرگترین ارزش این شاخص برای سبک های تجارت و معرفتی است (به ترتیب 3. 23 و 3. 30). سبک های مکالمه ، علمی و تجاری ارزش این شاخص را بین این دو گروه (به ترتیب 2. 74 ، 2. 94 و 3. 07) دارند.

تفسیر محدوده سری تجمعی بسیار دشوار است زیرا سری تجمعی بسیار غیرخطی است. بر اساس این شاخص، بیشترین ارزش ها مربوط به سبک های محاوره ای و خطی (به ترتیب 47. 4 و 41. 4) و کمترین ارزش ها مربوط به سبک های هنری و اعتراف است (به ترتیب 23. 4 و 27. 7). سایر سبک های علمی، تجاری، ژورنالیستی و شعری بین این دو گروه قرار دارند.

در تجزیه و تحلیل متن انگلیسی، همانطور که در شکل 6 نشان داده شده است، رفتار شاخص های فراکتال و آماری زمینه را برای نتیجه گیری زیر فراهم می کند. ابتدا همه شاخص ها همگنی بالای چهار قسمت اول متن را تایید می کنند. در اینجا نیز مانند بحث قبل، رفتار محدوده مجموعه تجمعی مورد توجه قرار نگرفت، اگرچه برای سه قسمت اول کمی با قسمت چهارم و پنجم تفاوت دارد.

نتایج تحلیل خوشه ای تفاوت بین سبک ها را تایید می کند حتی اگر از روش ویرایش برای ساخت مقادیر پیشنهادی استفاده شده باشد.

6. نتیجه گیری

مطالعه با توجه به روش پیشنهادی زمینه استفاده عملی از آن را فراهم کرد. با این حال، چنین تحقیقی مستلزم حضور یک زبان شناس مجرب در زمینه سبک سنجی است.

می توان آنالیز فراکتالی دنباله های عددی را به طور متفاوتی درمان کرد. این اجازه می دهد تا یک روش آماری یا یکی از روش های دینامیک غیر خطی را در نظر بگیرید و آن را به عنوان یک روش جداگانه در نظر بگیرید. علاوه بر این، هنگام بررسی نشریات، نویسندگان ماهیت این روش ها را درک می کنند. در واقع، تنها دو مورد اصلی شامل بعد فراکتال D و شاخص هرست H است. همه روش های دیگر از شاخص هرست پیروی می کنند.

این روش یک پیاده سازی منطقی از رویه های شناخته شده آنالیز فراکتال با افزودن شناسایی شبه چرخه ها و تعیین ثابت نسبت R/S است. مزیت آن این است که روش پیشنهادی یک نمایش ریاضی دقیق از مقادیر ابعاد فراکتال، شاخص هرست و ثابت مربوط به شاخص‌های تغییرات ارائه می‌کند. اول از همه، ماهیت این ارائه هشداری به محققان در برابر تفسیر نادرست از رابطه R / S است، زیرا بسیاری از محققان وجود یک ثابت برای این رابطه را نادیده می گیرند. در واقع، این رابطه تابعی با دو پارامتر ناشناخته است و نمی توان آن را مستقیماً تعیین کرد.

مشارکت های نویسنده

مفهوم سازی، ر. ک. و N. S. روش شناسی، R. K. نرم افزار، N. S. اعتبار سنجی، N. S.، Y. K. و J. K. تحلیل رسمی، N. S. تحقیق، ر. ک. منابع، J. K. مدیریت داده، Y. K. نوشتن - آماده سازی پیش نویس اصلی، N. S. نوشتن-بررسی و ویرایش، J. K. تجسم، Y. K. نظارت، N. S. مدیریت پروژه، J. K. تامین مالی، J. K. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و با آن موافقت کرده اند.

منابع مالی

این تحقیق توسط دانشکده مدیریت، دانشگاه Comenius در براتیسلاوا، اسلواکی پشتیبانی شده است.

استراتژی‌های اسکالپ...

ما را در سایت استراتژی‌های اسکالپ دنبال می کنید

برچسب : نویسنده : ناصر تقوایی بازدید : 57 تاريخ : جمعه 5 خرداد 1402 ساعت: 22:38

روش تمایز سبک ها توسط شاخص های فراکتال و آماری متن به عنوان دنباله ای از تعداد حروف در کلمات آن

آخرین مطالب

امکانات وب