مقدار تراکنش

ساخت وبلاگ

ما در ابتدای این فصل نقشه برداری از بهبود عملکرد را مورد بحث قرار دادیم که در آن یک نقشه برداری واحد را به دو نقشه تقسیم کردیم. رویکرد دیگر برای بهبود عملکرد می تواند تقسیم داده های منبع به تکه های کوچکتر باشد.

منبع

در این حالت ، اجازه دهید نمونه ای از داده های مالی را بگیریم. جدول منبع ما Accounts_Transaction حاوی معاملات روزانه یک بانک است. منبع شامل شماره حساب ، زمان معامله ، نوع معامله ، مبلغ و سایر ستون های مربوط به معاملات حساب بانکی است.

هدف

شکل 12. 22 را ببینید.

نقشه برداری

هنگام فکر تقسیم یک مجموعه داده بزرگ به روشهای کوچکتر ، ممکن است از تکنیک ها و روش های زیادی استفاده شود. ما می توانیم بر اساس تاریخ و زمان تقسیم کنیم ، یا می توانیم بر اساس ستون های نوع تقسیم کنیم. هر تکنیک تقسیم ما از آن استفاده می کنیم ، مجموعه داده های حاصل باید به همان اندازه اندازه باشد تا از مزایای بهبود عملکرد برخوردار شود.

جدا از مجموعه داده های با اندازه مساوی ، ما همچنین باید اطمینان حاصل کنیم که منطق نقشه برداری تحت تأثیر قرار نمی گیرد ، به ویژه هنگامی که نقشه برداری حاوی توابع کل است. برای چنین مواردی ، از ستون پارتیشن بندی برای تقسیم داده های منبع به تکه های کوچکتر استفاده کنید.

در اینجا ما از تکنیکی استفاده خواهیم کرد که برای سناریوهای بدترین حالت برای درک بهتر مفهوم مفید است. ما برای تقسیم داده های منبع از یک شماره حساب استفاده خواهیم کرد. بعد از اینکه تجزیه و تحلیل سطح ستون خود را انجام دادیم ، می توانیم پارامترهای زیر را تأیید کنیم:

نوع داده: الفبایی

تعداد کل: 127،000،000

ACCT_NO متمایز: 49،000،000

ردیف های متوسط در هر وال: 2. 17

آمار فوق برای درک محتوای هر ستون بسیار مهم است. ما اطلاعات کافی برای تصمیم گیری در هنگام تهیه تقسیم داریم. حداقل طول ستون 6 است و در این ستون هیچ تهی وجود ندارد. این بدان معنی است که اگر از هر یک از 6 کاراکتر اول برای فرمول استفاده کنیم ، با مشکلی روبرو نخواهیم شد. بیایید شخصیت سوم ستون را برای این مثال بگیریم. قبل از ایجاد نقشه برداری ، باید تقسیم مجموعه داده های هدف را تأیید کنیم. برای دیدن اندازه مجموعه داده های حاصل ، پرس و جو زیر را اجرا کنید.

Substring (Account_number ، 3،1) را به عنوان Val ، Count (*) به عنوان row_count انتخاب کنید

گروه توسط بستر (Account_number ، 3،1)

جدول 12. 25 مجموعه داده های حاصل برای پرس و جو فوق را نشان می دهد. داده های فوق نسبتاً یکنواخت است و داده های تقریباً مساوی را ارائه می دهد. اما با نگاهی به مقادیر ، فقط 12 کاراکتر از حروف الفبا و اعداد را می توانیم متوجه شویم. آیا این بدان معنی است که در آینده شخصیت های دیگری نیز وجود دارد؟

جدول 12. 25. مجموعه داده های مبتنی بر الفبای سومofمقدار ستون

دره شمارش ردیف
a 21166666
b 10583333
c 20583333
d 40583333
y 10583333
z 583333
1 10583337
2 30583333
3 83333
4 10583333
5 10583333
6 10583333

هنگام ایجاد نقشه برداری ، ما باید تمام سناریوهای احتمالی آینده را پوشش دهیم. ما می توانیم این کار را با درخواست مشتری برای ارائه اطلاعات دقیق در مورد منطق ایجاد شماره حساب انجام دهیم. دوم ، ما همیشه باید یک گروه اضافی برای مقادیر "دیگر" ایجاد کنیم تا داده هایی را که ممکن است در آینده به وجود بیایند ، جای دهد (جدول 12. 26).

جدول 12. 26. نقشه برداری داده ها برای تقسیم داده های منبع به مجموعه داده های کوچکتر

جدول هدف ستون هدف شناسه ضبط جدول منبع ستون منبع TRN CAT * قانون تحول
تازیانه t1 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "a"
تازیانه acc_no t1 حساب_تن حساب مستقیم
تازیانه زمان t1 حساب_تن زمان مستقیم
تازیانه …… t1
تازیانه t2 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "B"
تازیانه acc_no t2 حساب_تن حساب مستقیم
تازیانه زمان t2 حساب_تن زمان مستقیم
تازیانه …… t2
تازیانه t3 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = ‘C '
تازیانه acc_no t3 حساب_تن حساب مستقیم
تازیانه زمان t3 حساب_تن زمان مستقیم
تازیانه …… t3
تازیانه t4 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = ‘D '
تازیانه acc_no t4 حساب_تن حساب مستقیم
تازیانه زمان t4 حساب_تن زمان مستقیم
تازیانه …… t4
تازیانه t5 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "y"
تازیانه acc_no t5 حساب_تن حساب مستقیم
تازیانه زمان t5 حساب_تن زمان مستقیم
تازیانه …….. t5
تازیانه t6 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "z"
تازیانه acc_no t6 حساب_تن حساب مستقیم
تازیانه زمان t6 حساب_تن زمان مستقیم
تازیانه …….. t6
تازیانه t7 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "1"
تازیانه acc_no t7 حساب_تن حساب مستقیم
تازیانه زمان t7 حساب_تن زمان مستقیم
تازیانه …….. t7
تازیانه t8 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "2"
تازیانه acc_no t8 حساب_تن حساب مستقیم
تازیانه زمان t8 حساب_تن زمان مستقیم
تازیانه …….. t8
تازیانه t9 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = "3"
تازیانه acc_no t9 حساب_تن حساب مستقیم
تازیانه زمان t9 حساب_تن زمان مستقیم
تازیانه …….. t9
تازیانه TRN10 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = 4 '
تازیانه acc_no TRN10 حساب_تن حساب مستقیم
تازیانه زمان TRN10 حساب_تن زمان مستقیم
تازیانه …….. TRN10
تازیانه t11 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = 5 '
تازیانه acc_no t11 حساب_تن حساب مستقیم
تازیانه زمان t11 حساب_تن زمان مستقیم
تازیانه …….. t11
تازیانه TRN12 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) = 6 '
تازیانه acc_no TRN12 حساب_تن حساب مستقیم
تازیانه زمان TRN12 حساب_تن زمان مستقیم
تازیانه …….. TRN12
تازیانه TRN13 حساب_تن + داده های زیر را در شرایط زیر فیلتر کنید
جایی که بستر (حساب ، 3،1) در ("A" ، "B" ، "C" ، "D" ، "Y" ، "Z" ، "0" ، "1" ، "2" ، "3""،" 4 "،" 5 "،" 6 ")
تازیانه acc_no TRN13 حساب_تن حساب مستقیم
تازیانه زمان TRN13 حساب_تن زمان مستقیم
تازیانه …….. TRN13

* CAT TRN ، دسته تحول. بیشتر بخوانید URL: https://www. scienceirect. com/science/article/pii/b9780128051856000125

تشخیص دور

جیاوی هان ،. جیان پی ، در داده کاوی (چاپ سوم) ، 2012

12. 3. 2 روشهای غیرپارامتری

در روشهای غیرپارامتری برای تشخیص دورتر ، مدل "داده های عادی" از داده های ورودی آموخته می شود ، نه اینکه فرض کنید که یک پیشینی باشد. روشهای غیرپارامتری اغلب فرضیات کمتری در مورد داده ها ایجاد می کنند و بنابراین می توانند در سناریوهای بیشتر کاربرد داشته باشند.

مثال 12. 13

تشخیص دورتر با استفاده از هیستوگرام

Allelectronic مبلغ خرید را برای هر معامله مشتری ثبت می کند. شکل 12. 5 با توجه به کلیه معاملات ، از یک هیستوگرام استفاده می کند (به فصل های 2 و 3 فصل 2 فصل 3) برای نمودار این مقادیر به عنوان درصد. به عنوان مثال ، 60 ٪ از مبلغ معامله بین 0. 00 دلار تا 1000 دلار است.

ما می توانیم از هیستوگرام به عنوان یک مدل آماری غیر پارامتری برای ضبط دور استفاده کنیم. به عنوان مثال ، یک معامله به مبلغ 7500 دلار می تواند به عنوان یک فرسوده در نظر گرفته شود زیرا تنها 1 - (6 0 ٪ + 2 0 ٪ + 1 0 ٪ + 6. 7 ٪ + 3. 1 ٪) = 0. 2 ٪ از معاملات مبلغ بالاتر از 5000 دلار است. از طرف دیگر ، مبلغ معامله 385 دلار می تواند به صورت عادی درمان شود زیرا در سطل (یا سطل) قرار دارد که 60 ٪ معاملات را در اختیار دارد.

همانطور که در مثال قبلی نشان داده شده است ، هیستوگرام یک مدل آماری غیر پارامتری است که می تواند برای تشخیص دور از دسترس استفاده شود. این روش شامل دو مرحله زیر است.

مرحله 1: ساخت هیستوگرام. در این مرحله ، ما یک هیستوگرام را با استفاده از داده های ورودی (داده های آموزشی) می سازیم. اگر داده های ورودی چند بعدی باشند ، ممکن است هیستوگرام مانند مثال 12. 13 یا چند متغیره باشد.

توجه داشته باشید که اگرچه روشهای غیر پارامتری هیچ مدل آماری پیشینی را فرض نمی کنند ، اما اغلب برای یادگیری مدل ها از داده ها به پارامترهای مشخص شده توسط کاربر نیاز دارند. به عنوان مثال ، برای ساختن یک هیستوگرام خوب ، کاربر باید نوع هیستوگرام (به عنوان مثال ، عرض مساوی یا عمق مساوی) و سایر پارامترها را مشخص کند (به عنوان مثال ، تعداد سطل های موجود در هیستوگرام یا اندازه هر سطل). بر خلاف روشهای پارامتری ، این پارامترها انواع توزیع داده ها را مشخص نمی کنند (به عنوان مثال ، گاوسی).

مرحله 2: تشخیص دور. برای تعیین اینکه آیا یک شیء ، O ، یک دور از ذهن است ، می توانیم آن را در برابر هیستوگرام بررسی کنیم. در ساده ترین روش ، اگر جسم در یکی از سطل های هیستوگرام قرار بگیرد ، شیء طبیعی در نظر گرفته می شود. در غیر این صورت ، این یک دور از نظر محسوب می شود.

برای یک رویکرد پیچیده تر ، می توانیم از هیستوگرام استفاده کنیم تا یک امتیاز دور از ذهن را به جسم اختصاص دهیم. در مثال 12. 13 ، ما می توانیم اجازه دهیم که نمره دور از یک شیء معکوس از حجم سطل که در آن شی می افتد ، باشد. به عنوان مثال ، نمره دور برای مبلغ معامله 7500 دلار 1 0 است. 2 ٪ = 5 0 0 ، و این مبلغ معامله 385 دلار 1 6 0 ٪ = 1 است. 6 7. نمرات حاکی از آن است که مبلغ معامله 7500 دلار بسیار بیشتر از 385 دلار بیشتر است.

اشکال در استفاده از هیستوگرام به عنوان یک مدل غیر پارامتری برای تشخیص دور از ذهن این است که انتخاب یک اندازه سطل مناسب دشوار است. از یک طرف ، اگر اندازه سطل خیلی کوچک باشد ، بسیاری از اشیاء عادی ممکن است در سطل های خالی یا نادر به پایان برسند ، و به این ترتیب به عنوان Outliers شناخته می شوند. این منجر به نرخ مثبت کاذب بالا و دقت پایین می شود. از طرف دیگر ، اگر اندازه سطل بیش از حد زیاد تنظیم شود ، اشیاء دورتر ممکن است در برخی از سطل های مکرر نفوذ کنند و بنابراین به طور طبیعی "پنهان" شوند. این منجر به نرخ منفی کاذب بالا و فراخوان کم می شود.

برای غلبه بر این مشکل ، می توانیم تخمین چگالی هسته را برای تخمین توزیع چگالی احتمال داده ها اتخاذ کنیم. ما یک شیء مشاهده شده را به عنوان شاخص چگالی احتمال زیاد در محیط اطراف درمان می کنیم. چگالی احتمال در یک نقطه به مسافت از این نقطه به اشیاء مشاهده شده بستگی دارد. ما از یک تابع هسته برای مدل سازی تأثیر یک نقطه نمونه در محله آن استفاده می کنیم. هسته K () یک عملکرد یکپارچه با ارزش واقعی غیر منفی است که دو شرط زیر را برآورده می کند:

k ( - u) = k (u) برای تمام مقادیر u.

یک هسته که اغلب مورد استفاده قرار می گیرد یک عملکرد استاندارد گاوسی با میانگین 0 و واریانس 1 است:

(12. 8) k x - x i h = 1 2 π e - (x - x i) 2 2 ساعت 2.

بگذارید x 1 ،… ، x n یک نمونه مستقل و یکسان توزیع شده از یک متغیر تصادفی f باشد. تقریب چگالی هسته عملکرد چگالی احتمال است

(12. 9) f ^ h (x) = 1 n h ∑ i = 1 n k (x - x i h) ،

جایی که K () یک هسته است و H پهنای باند است که به عنوان یک پارامتر هموار کننده خدمت می کند.

هنگامی که عملکرد چگالی احتمال یک مجموعه داده از طریق برآورد چگالی هسته تقریب می یابد ، می توانیم از عملکرد چگالی تخمین زده شده F ^ برای تشخیص دور استفاده کنیم. برای یک شی ، o ، f ^ (o) این احتمال تخمین زده شده است که جسم توسط فرآیند تصادفی تولید می شود. اگر f ^ (o) زیاد باشد ، احتمالاً جسم طبیعی است. در غیر این صورت ، o احتمالاً یک چیز مهم است. این مرحله اغلب شبیه به مرحله مربوطه در روشهای پارامتری است.

به طور خلاصه ، روشهای آماری برای تشخیص دورتر مدل های یادگیری از داده ها برای متمایز کردن اشیاء داده عادی از Outriers. مزیت استفاده از روشهای آماری این است که تشخیص دورتر ممکن است از نظر آماری قابل توجیه باشد. البته این تنها درصورتی صادق است که فرض آماری که در مورد داده های اساسی ساخته شده است ، محدودیت ها را در واقعیت مطابقت می دهد.

توزیع داده های داده های با ابعاد بالا اغلب پیچیده و درک کامل آن دشوار است. در نتیجه ، روشهای آماری برای تشخیص دورافتاده بر روی داده های با ابعاد بالا یک چالش بزرگ است. تشخیص دور برای داده های با ابعاد بالا بیشتر در بخش 12. 8 مورد بررسی قرار می گیرد.

هزینه محاسباتی روشهای آماری به مدل ها بستگی دارد. هنگامی که از مدل های پارامتری ساده استفاده می شود (به عنوان مثال ، یک گاوسی) ، متناسب با پارامترها به طور معمول زمان خطی طول می کشد. هنگامی که از مدل های پیچیده تر استفاده می شود (به عنوان مثال ، مدل های مخلوط ، که در آن از الگوریتم EM در یادگیری استفاده می شود) ، تقریب بهترین مقادیر پارامتر اغلب چندین تکرار طول می کشد. با این حال ، هر تکرار به طور معمول با توجه به اندازه مجموعه داده ها خطی است. برای برآورد چگالی هسته ، هزینه یادگیری مدل می تواند به درجه دوم باشد. پس از آموختن این مدل ، هزینه تشخیص دورتر اغلب در هر شی بسیار اندک است.

بیشتر بخوانید URL: https://www. scienceirect. com/science/article/pii/b9780123814791000125

رمزگذاری هوشمند بانکداری XML با استفاده از منطق فازی مؤثر

فیصل T. Ammari ،. ماهر ، در روند ظهور امنیت فناوری اطلاعات و ارتباطات ، 2014

مرحله طبقه بندی فازی

در مرحله طبقه بندی فازی ما ، 10 ویژگی معامله را با توجه به نوع آنها به سه لایه مختلف طبقه بندی کردیم. این ویژگی ها پس از بررسی نظرات و پیشینه های کارشناسان مختلف ، بررسی ابزارهای تحلیل مالی ، بررسی گزارش های فنی ، تحقیق در مورد سیستم های مالی مختلف آنلاین و آفلاین انجام شده در موسسه مالی و انجام مجموعه ای از نظرسنجی های داخلی در بین سران گروه بانکی انتخاب شده است. ما این 10 ویژگی معامله استخراج شده از پیام XML را به سه لایه (بخش حساب ، بخش جزئیات و بخش محیط) طبقه بندی کردیم. گروه بندی روند طبقه بندی فازی را تسهیل و ساده می کند.

این مرحله وظیفه اختصاص یک مقدار جدید را دارد که سطح اهمیت برای هر برچسب XML است. ایده اصلی این است که تشخیص دهیم که بخش هایی از پیام با استفاده از رمزگذاری کلید AES-128 بیتی رمزگذاری می شوند و با استفاده از یک کلید AES-256 بیتی رمزگذاری می شوند. استفاده از کلید به مقدار اهمیت اهمیت (بالا ، متوسط یا پایین) بستگی دارد ، به موجب آن ما کلید 128 بیتی را بر روی برچسب ها با سطح اهمیت "متوسط" و کلید 256 بیتی بر روی برچسب ها با ارزش سطح اهمیت "بالا" مستقر می کنیم. بشربرچسب ها با مقدار سطح اهمیت "پایین" مستقیماً به مونتاژ پیام ارسال می شوند ، جایی که هیچ رمزگذاری انجام نمی شود. این فاز از تکنیک های فازی سازی مجموعه ای از متغیرهای ورودی بر اساس 10 ویژگی استخراج شده از پیام XML استفاده می کند ، همه بسته به دانش قبلی ، تجربه و پیشینه تخصصی. 10 ویژگی با جزئیات به شرح زیر تعریف شده است:

مبلغ معامله: موسسات مالی محدودیت های پیش تعریف شده را تعیین می کنند. محدودیت ها به کاربران امکان می دهد معاملات را با محدودیت های مشخص به صورت روزانه انجام دهند. دامنه محدودیت معاملات بر اساس سیاست محلی در هر موسسه تعریف شده است. بانکها به طور معمول مبلغ معامله را به عنوان هشدار برای هر معامله مهم رفتار می کنند. این مبلغ در اکثر بانک ها برای اندازه گیری وزن کل معامله انجام شده استفاده می شود. منبع ، مقصد و مقدار همه ترکیب می شوند تا به عنوان هشدار عمل کنند که از قبل براساس سیاست بانک از قبل تعریف شده است. مبلغ معامله بزرگ بر اهمیت خود معامله تأثیر می گذارد ، که می تواند در مدل ما به عنوان یک مورد اندازه گیری در ارزیابی سطح اهمیت ما مورد استفاده قرار گیرد.

ارز معامله: ما از لیستی تعریف شده از ارزهای مجاز استفاده می کنیم که می توانند بصورت آنلاین یا آفلاین استفاده شوند. هر ارز بسته به استفاده و اهمیت ، مجموعه متغیرهای ریسک خاص خود را دارد. ارز خارجی از نرخ ارز ، تداخل عملیاتی و ارزش بازار برای معامله در لحظه ای که اتفاق افتاده است استفاده می کند. بانک ها با هر معامله FX با اهمیت بالایی رفتار می کنند ، زیرا این شامل خرید و فروش با نرخ بانک است. ما از این عامل در ارزیابی اهمیت خود استفاده کرده ایم

نوع حساب: حساب ها در هر موسسه تقسیم می شوند. تقسیم بندی برای امکان استفاده از مجموعه ای از قوانین داخلی در بخش های انتخاب شده انجام می شود. هر بخش ارزش و وزن خاص خود را دارد. به عنوان مثال ، بخش های حساب شرکت با اهمیت و اولویت بالایی ذکر شده است زیرا بیشتر معاملات حجم زیادی دارند که می تواند برای هر معامله به نفع بانک باشد. ما به دلیل نقش آن در تصمیم گیری در مورد سطح اهمیت برای کل معامله ، از این عامل استفاده کردیم.

یادداشت های معامله: استثنائات بر روی فعالیت غیرمعمول در یک حساب خاص قرار می گیرند ، و چنین استثنائاتی پرچم را در هر معامله ای که برای انجام استثناء قبل از اتمام روند انجام می شود ، ایجاد می کند. داشتن یک معامله پرچم دار ، سطح اهمیت را بالا می برد و به دلیل اهمیت آن ، هشدار را برای نظارت بر آن معامله خاص ایجاد می کند. ما از این عامل برای اندازه گیری سطح اهمیت از نظر وزن بحرانی معامله استفاده کرده ایم.

شناسه پروفایل: این یک شناسه منحصر به فرد برای صاحب حساب مقصد است. مقدار در طی فرآیند ادغام سیستم و ایجاد پروفایل تنظیم شده است. شرکت ها یا افراد دارای شناسه مشخصات سفارشی از پتانسیل بالایی برای کنترل معاملات برخوردار هستند. نظارت بر مبلغ معامله پس از طبقه بندی هر شناسه مشخصات ، به موجب آن طیف وسیعی از شناسه ها در منطقه با اهمیت بالا ذکر شده است ، همه پس از استقرار روش ها و رویه های یک بانک.

حساب های حساب: این به چند بار از حساب در سیستم استفاده می شود. استفاده بیشتر به معنای اعتماد بیشتر است ، به موجب آن تاریخ حساب شناخته شده و مورد اعتماد است. یک گزارش تاریخی به طور مرتب برای تأیید حسابهای قابل اعتماد و موارد مشکوک به طور مرتب نگهداری و ارزیابی می شود. ارزیابی منجر به مجموعه ای از محدوده های مهم حسابهای قابل اعتماد خواهد شد که در ارزیابی معامله و تعیین سطح اهمیت استفاده می شود.

رمز عبور نادرست تلاش می کند: این تعداد دفعاتی است که کاربر به اشتباه وارد رمز عبور می شود تا سعی در انجام معامله مالی داشته باشد. این عامل برای هر معامله سطح اهمیت جزئی می افزاید. نرخ بالای تلاشهای نادرست نشانگر اهمیت بالایی است.

زمان صرف شده برای سرویس: این به زمان صرف شده برای پیمایش در سرویس قبل از انجام معامله اشاره دارد. با در نظر گرفتن ساعات اوج ، محدوده زمانی بر اساس سیاست بانک تعیین شده است. این عامل یک عامل فنی برای اندازه گیری سطح اهمیت معامله بر اساس عناصر غیر مالی محسوب می شود.

معاملات روزانه: این به این است که قبل از انجام معاملات مالی چه تعداد معاملات انجام می شود. تعداد معاملات روزانه وزن خود را بر سطح اهمیت کلی برای خود معامله قرار می دهد ، به موجب آن تعداد معاملات انجام شده بر اساس خط مشی بانک در محدوده مجاز تعیین می شود.

زمان معامله: روز مالی به سه دوره طبقه بندی می شود: دوره اوج ، ساعات عادی و منطقه مرده. دوره ها توسط موسسه مالی بر اساس سیاست های محلی و دوره های معاملات تاریخی تعریف می شوند. هر دوره ارزش خاص خود را دارد که سطح اهمیت آن را می افزاید و چگونه وقوع هر معامله در زمان وقوع تأثیر می گذارد. در هنگام انجام معامله ، دامنه ها سطح اهمیت را وزن می کنند.

بیشتر بخوانید URL: https://www. scienceirect. com/science/article/pii/b9780124114746000372

فناوری blockchain: سیستم عامل ها ، ابزارها و موارد استفاده

ملانیا سوان ، در پیشرفت در رایانه ها ، 2018

4. 2 کوردا از R3

کوردا یک بستر لجر توزیع شده برای استفاده در صنعت خدمات مالی ساخته شده توسط R3 ، یک شرکت فناوری توزیع شده پایگاه داده است. بر خلاف یک روش پخش جهانی ، لجر بر اساس یک روش پخش جهانی توزیع می شود. این بدان معنی است که فقط طرفین درگیر در معاملات در این جزئیات معاملات قابل مشاهده هستند. هویت های محرمانه یک لایه اضافی از حریم خصوصی در سیستم کوردا است به گونه ای که فقط همتایان معامله می توانند شرکت کنندگان را شناسایی کنند. چگونگی این کار این است که شرکت کنندگان در معامله با استفاده از "جریان هویت های مبادله" یک کلید و گواهی جدید را مبادله می کنند. از کلیدهای تازه صادر شده برای مشخصات دقیق و امضای معامله استفاده می شود. اگرچه جزئیات فرستنده و گیرنده با هویت های محرمانه ناشناس هستند ، اما میزان معامله نیست. این امر به این دلیل است که مبلغ معامله ، الگوریتم مدیریت ترافیک کوردا را قادر می سازد تا بر اساس میزان دستورالعمل های پرداخت صف (که می تواند منجر به عدم وجود اصول بی طرفی خالص شود) بهترین مسیریابی معامله را محاسبه کند. خطر افشای مبلغ معامله این است که ممکن است اعضای شبکه بتوانند شبکه را نمودار کنند و فرستنده و گیرنده هر یک از دستورالعمل های پرداخت صف و مبلغ کل انتقال را استنباط کنند.

این مهم است زیرا تحقیقات نشان می دهد که معاملات cryptocurrency کمتر از آنچه تصور می شد با توجه به سیستم آدرس دهی کیف پول نام مستعار دامنه ، کمتر از آنچه تصور می شد ، نشان می دهد. به عنوان مثال ، تجزیه و تحلیل زنجیره ای شرکت تحلیلی blockchain ادعا می کند که از آنجا که اطلاعات مربوط به 25 ٪ آدرس های بیت کوین به هویت های دنیای واقعی گره خورده است ، می تواند تقریباً 50 ٪ از کل فعالیت های بیت کوین را به خود اختصاص دهد [21]. تیم ها 50 ٪ معاملات بیت کوین ، 78. 7 ٪ از معاملات موج دار را محاسبه یا شناسایی کرده اند [22] و 62 ٪ از ورودی های معاملات در معاملات مونرو [23].

کوردا با استفاده از معماری های فناوری اطلاعات موجود در شرکت ، استفاده و پخش و پخش آن آسان است. اضافه کردن یک گره جدید در کوردا فقط شامل نصب گره جدید و تغییر حداقل در گره های موجود و شبکه کلی است. از آنجا که معاملات کوردا فقط به صورت نیاز به دانستن به گره ها ارسال می شود ، هر یک از همسالان فقط زیر مجموعه مربوط به معاملات کل را می بینند. این امر باعث می شود عملکرد کوردا از سیستم های blockchain توزیع شده کلاسیک کارآمدتر شود زیرا هر گره همسالان در حال تأیید هر معامله نیست و کل دفترچه را ذخیره و به روز می کند. با این حال ، این بدان معنی است که کوردا بیشتر از یک سیستم blockchain واقعی توزیع شده است. فواید کوردا به عنوان یک سیستم سازمانی با برخی از ویژگی های فناوری blockchain این است که برخی از مقیاس پذیری و عملکردی که معمولاً در سیستم های لجر توزیع شده کلاسیک تجربه می شود ، ممکن است از بین برود.

"مکانیسم اجماع" یا به طور خاص تر اعتبار سنجی ، تأیید و مکانیسم ورود به سیستم ، کوردا از یک سرویس اسناد رسمی ساده است. اگر فقط از یک سرویس اسناد رسمی ساده استفاده شود ، یک نقطه از خرابی در شبکه ایجاد می شود. در صورت عدم موفقیت سرویس اسناد رسمی ساده ، معاملات نمی توانند انجام شود. برای کاهش ریسک ، سرویس اسناد رسمی ساده ممکن است به عنوان خوشه ای اجرا شود که به طور بالقوه توسط چندین طرف اداره می شود. چنین راه حلی می تواند برای پشتیبانی از تعادل بار برای افزایش توان معامله ، چند رشته ای از معاملات ورودی و به حداقل رساندن تأخیر برای احزاب متعصب جغرافیایی متنوع طراحی شود. در صنایعی که توان معامله بالا یک الزام است ، چندین سرویس اسناد رسمی ممکن است ریسک را کاهش داده و امکان استفاده بیشتر از توان معامله و تعادل بار را فراهم می کند.

کوردا (مانند بیت کوین) از یک مدل UTXO استفاده می کند که به حالت های ورودی نیاز دارد تا به یک یا چند معاملات ورودی توسط هش آنها مرتبط شود تا بتواند زنجیره ای تغییر ناپذیر از اصل دارایی را تولید کند. محاسبه زنجیره دارایی دارایی در هر معامله می تواند به یک مسئله عملکرد تبدیل شود زیرا هر گره درگیر در هر معامله تأیید می کند که هر ورودی در دنباله ای از معاملات معتبر برای تأیید صحت کلی زنجیره ایجاد می شود. مقیاس پذیری عملکرد ممکن است با بهترین شیوه هایی که به طور دوره ای منقضی می شوند و دارایی های دیجیتالی را دوباره تقویت می کنند ، یا پس از یک دوره زمانی ، وجوه غیرقانونی استفاده نشده را بازیافت کنند. اگر هر یک از گره های شرکت کننده غیرقابل دسترسی باشند ، به عنوان مثال ، به دلیل خرابی دستگاه ، مشکلات شبکه یا دلایل دیگر ، این شبکه هنوز هم می تواند برای کلیه معاملات که نیازی به دخالت گره های شکست خورده ندارند ، کار کنند. در عین حال ، گره ها به دلیل مکانیسم بازرسی جریان کوردا می توانند به صورت اراده خاموش و مجدداً راه اندازی شوند ، اطمینان حاصل شود که داده ها هرگز از بین نمی روند و پیشرفت جریان محافظت می شود. علاوه بر این ، معاملات انتقال صندوق هنوز هم می تواند در بین گره های شرکت کننده که در گره های خارج از خط شرکت نمی کنند ، ادامه یابد. نقل و انتقالات صندوق معتبر را می توان در زمان واقعی آغاز و تسویه کرد.

در کوردا ، سرویس اسناد رسمی نقطه نهایی را در معامله ارائه می دهد. وجود امضای دفتر اسناد رسمی نشانگر نهایی بودن معامله است (بنابراین نهایی بودن در لحظه امضای دفتر اسناد رسمی برای اهداف مالکیت و مسئولیت اتفاق می افتد). با به دست آوردن امضای دفتر اسناد رسمی ، شرکت کنندگان در معاملات می توانند مطمئن باشند که دولتهای ورودی با معاملات قبلی غیرقابل تحمل (بدون نیاز) هستند. مدل دفتر اسناد رسمی برای اتمیتیک (خاصیت سیستم اجازه تقسیم معامله به قطعات (اتم)) ساخته شده است. در کوردا ، اتمی به این معنی است که یک معامله پیشنهادی بر اساس همه یا هیچ یک پذیرفته می شود (بنابراین هیچ معاملات جزئی وجود ندارد). قبل از اجرای ، دستورالعمل های صف شده برای پردازش معاملات قابل تغییر است (مجدداً یا لغو شده). اصلاح مکانیسم برای خرابی معاملات برنامه ریزی شده است. برای متوقف کردن معاملات غیرمترقبه ، می توان از ویژگی اتمی از راه حل توری کوردا استفاده کرد تا معاملات از بین بروند زیرا نمودار دیگر به دلیل دستورالعمل پرداخت اصلاح شده یا با کاهش تعادل دیگر معتبر نیست.

بیشتر بخوانید URL: https://www. scienceirect. com/science/article/pii/s0065245818300287

امنیت مالی در برابر پولشویی

Girish Keshav Palshikar ، Manoj Apte ، در روند ظهور امنیت ICT ، 2014

تکنیک های داده کاوی برای تشخیص ML

تعدادی از داده های کاوی و تکنیک های آماری برای تشخیص نمونه های ML استفاده شده است. داده های ورودی معمولاً گزارش های مشکوک مختلف (CTR ، SAR و غیره) یا مجموعه داده کلیه معاملات در یک موسسه مالی است. خروجی مجموعه ای از معاملات بسیار مشکوک یا اشخاص بسیار مشکوک (به عنوان مثال افراد ، سازمان ها یا حساب ها) است. تکنیک های طبقه بندی تحت نظارت (مانند دستگاه های بردار پشتیبانی) به دلیل عدم دسترسی عمومی نمونه های قابل اعتماد ML به عنوان داده های آموزشی دارای برچسب و همچنین عدم تعادل شدید کلاس ، مناسب نیستند ، زیرا تعداد موارد شناخته شده ML احتمالاً به مراتب کمتر از حد معمول استمعاملاتتکنیک های بدون نظارت مانند پروفایل ، خوشه بندی ، تشخیص ناهنجاری ، تجزیه و تحلیل پیوند و تجسم داده ها برای تشخیص ML استفاده شده است. از تکنیک های نمایندگی دانش مانند سیستم های خبره یا شبکه های بیزی می توان برای ضبط و استفاده از دانش دامنه متخصصان استفاده کرد. به عنوان مثال ، به [28] مراجعه کنید ، که از هستی شناسی عامل محور برای گرفتن دانش ضد ML استفاده می کند. بسیاری از نظرسنجی های خوب در دسترس هستند که استفاده از تکنیک های داده کاوی را برای تشخیص کلاهبرداری عمومی (نه لزوما ML) بررسی می کنند [29-32]. نویسندگان [33،34] تکنیک های بررسی AI/داده های مورد نظر که می توانند برای تشخیص ML استفاده شوند.

یک رویکرد متداول برای تشخیص ML که در یک موسسه مالی استفاده می شود (به عنوان مثال ، یک بانک) این است که ابتدا با استفاده از یک اندازه گیری شباهت مناسب و دانش تجاری ، اشخاص (به عنوان مثال ، حساب ها) را به خوشه ها تقسیم کنید. سپس مجموعه ای مناسب از ویژگی های خلاصه (پروفایل) برای هر نهاد (بر اساس دانش دامنه) با استفاده از تاریخچه معاملات آنها محاسبه می شود. این ویژگی های پروفایل معمولاً توابع غیرخطی داده های معامله است و به گونه ای طراحی شده است که نماینده مشکوک برای اشخاص باشد (به عنوان مثال ، بر اساس فرکانس های برداشت/سپرده ، انحراف مبلغ معامله ، حجم معامله و سرعت و غیره). سرانجام ، نهادها بر اساس ویژگی های پروفایل خود در اولویت قرار می گیرند و K (تعداد کمی) برای تحقیقات عمیق انتخاب می شوند.

سناتور و همکاران.[35] از Fincen سیستم Fincen AI (FAIS) را ایجاد کرده است که گزارش های مربوط به معاملات بزرگ نقدی را برای شناسایی ML بالقوه پیوند داده و ارزیابی می کند و از سال 1993 در FinCen کار کرده است.(معاملات ، موضوعات ، حساب ها) برای تحقیقات احتمالی. این مدل از سه سطح اعتقاد پشتیبانی می کند: گزارش ، پذیرفته شده و فرضیه. معاملات گزارش شده در سطح اعتقاد گزارش شده است. این معاملات در خوشه ها ادغام می شوند. داده های خلاصه مانند خوشه های موضوع و حساب ، محاسبه شده از مجموعه معاملات گزارش شده ، سطح اعتقاد بعدی (پذیرفته شده) را نشان می دهد. در این سطوح ، برخی از ویژگی های مشتق شده محاسبه می شوند که برای ارزیابی مشکوک به داده محور بر اساس اطلاعات کشف شده توسط تحلیلگران ، از جمله پیوندها بین خوشه ها ضروری است. بالاترین سطح اعتقاد (فرضیه) برای انتزاع سطح بالاتر مانند موارد و الگوهای استفاده می شود. FAIS بسته آنالیز پیوند Alta Analytics NETMAP را که از نمایشگرهای "واگن چرخ" استفاده می کند ، ادغام کرده است. Fincen از هر دو نمایشگر چرخ واگن و نمودارهای سنتی "پیوند و لبه" برای تجزیه و تحلیل استفاده می کند. FAI تلاش کرده است از تکنیک هایی مانند استدلال مبتنی بر مورد (CBR) و داده کاوی (نزدیکترین همسایه ، درختان تصمیم گیری) استفاده کند که به دلیل عدم وجود بسیاری از نمونه های دارای برچسب بسیار موفق نبودند. حتی الگوریتم های یادگیری بدون نظارت به دلیل مشکلات در به دست آوردن ویژگی های مناسب به دلیل کیفیت ضعیف داده ها و نیاز به دانش پیش زمینه ، چندان قابل اعتماد نبودند. این تکنیک ها به عنوان کمک های مهندسی دانش مفید بودند. تحلیلگران از FAI برای تولید نمره مشکوک استفاده کرده و افراد را از طریق تحقیق و تجزیه و تحلیل داده های موجود از کلیه منابع برای توسعه سربهای معتبر ارزیابی کرده اند. سپس این منجر به بررسی و تجزیه و تحلیل کاملاً توسط سازمان های اجرای قانون می شود. Fincen از بازخورد این آژانس ها برای پیشرفت در سیستم استفاده می کند.

با توجه به این واقعیت که تنها چند نهاد به عنوان شرکت در ML شناخته می شوند ، می توان از یادگیری فعال برای کاهش نیاز به داده های برچسب استفاده کرد. در هر مرحله ، یک روش یادگیری فعال یک نقطه داده را برای برچسب زدن دستی توسط کاربر انتخاب می کند و از آن برای اصلاح مدل طبقه بندی خود استفاده می کند. دنگ و همکاران.[36] از یادگیری فعال از طریق طراحی متوالی برای تشخیص پولشویی استفاده کنید. برای سادگی ، فرض می کنیم که هر حساب در همان خوشه دارای دو ویژگی است ، مشخص شده1، ایکس2) t. ترکیب محدب z = wx را تعریف کنید1+(1− w) x2برای تبدیل داده ها به فرم یک متغیره ، جایی که w∈ [0 ، 1] وزن ناشناخته است. مشکوک بودن یک حساب توسط عملکرد logit f (z | θ) = p (y = 1 | z ، θ) = e (z - μ) / σ 1 + e (z - μ) / σ تعریف شده است که سهپارامترهای ناشناخته ، θ = (μ ، σ ، w) t و y برچسب کلاس را نشان می دهد. در پایان ، با توجه به آستانه α (به عنوان مثال ، α = 0. 8) ، ما تمام حساب های z را که f (z) ≥ α برای آن وجود دارد ، شناسایی می کنیم ، یعنی هیپرپلن آستانه l α = استبشربا توجه به استخر فعلی داده های دارای برچسب مورد استفاده تاکنون (با شروع یک نقطه داده دارای برچسب) ، مقدار جدید θ با استفاده از یک تکنیک حداکثر احتمال تخمین زده می شود. سپس ، از آنجا که F (z) فقط از طریق چند نقطه داده با برچسب پر سر و صدا شناخته می شود ، یک الگوریتم تقریب تصادفی برای یافتن ریشه های F (z) [37] برای یافتن k استفاده می شود0امتیاز نزدیک به هایپلن فعلی است. در بین این نامزدها ، نکته با حداکثر مقدار برای ماتریس اطلاعات فیشر انتخاب شده و برای برچسب زدن دستی به کاربر ارائه می شود.

معاملات مالی مشاهده شده را می توان به عنوان یک نمودار با اشخاص (به عنوان مثال حساب) به عنوان گره خلاصه کرد. از تکنیک های استخراج نمودار می توان برای شناسایی جریان های مشکوک پول در لبه های چنین نمودار استفاده کرد. ژانگ و همکاران.[38] یک کشف لینک جدید را بر اساس تجزیه و تحلیل همبستگی (LDCA) در مورد داده های جدول زمانی برای شناسایی جوامع در غیاب اطلاعات پیوند صریح ارائه می دهد. همبستگی بین دو نفر از طریق یک عملکرد همبستگی بین بردارهای تاریخ معاملات مالی آنها تعریف شده است. اگر هر دو بخشی از یک قسمت ML باشند ، باید الگوهای معاملات مالی مشابهی را به نمایش بگذارند ، و بنابراین ، انتظار می رود ارزش همبستگی بالاتری برای آنها داشته باشد. Michalak و Korczak [39] یک روش استخراج نمودار برای تشخیص زیرگرافهای مربوط به الگوهای معامله مشکوک (به عنوان مثال ، یک الگوی گیرنده گیرنده-گیرنده مانند شبکه) ارائه می دهند. روش آنها وابستگی بین نقل و انتقالات فردی را که ممکن است نشانگر فعالیت های غیرقانونی باشد ، در نظر می گیرد. همچنین به [40] مراجعه کنید.

چانگ و همکاران.[41] مجموعه ای از استعاره های تجسم هماهنگ از جمله نقشه گرما ، جستجو به عنوان مثال ، نمودارهای کلیدی و رشته ها و مهره ها را ارائه داده اند که بر اساس شناسایی کلمات کلیدی خاص در معاملات سیم است. این مجموعه از تجسم به تحلیلگران کمک می کند تا حساب ها و معاملات را که رفتارهای مشکوک دارند ، تشخیص دهند. هوانگ و همکاران.[42] یک راه حل مبتنی بر تجسم دو مرحله ای برای تشخیص کلاهبرداری در بازارهای سهام ، که در ابتدا از آنها استفاده می کنند برای نظارت بر عملکرد بازار سهام در زمان واقعی و شناسایی یک سهام خاص که یک الگوی معاملاتی غیرمعمول را تولید می کند ، پیشنهاد می کند. سپس آنها تجسم شبکه های اجتماعی را برای انجام تجزیه و تحلیل بصری رفتار محور از الگوی مشکوک ، شناسایی نهادهای درگیر در کلاهبرداری و حمله بیشتر به برنامه ها انجام می دهند.

Zdanowicz [43] از تکنیک های تشخیص آماری دوربرد برای شناسایی قسمت های ML در داده های معاملات واردات و صادرات استفاده می کند ، زیرا با ارزش گذاری واردات یا کم ارزش بودن صادرات یک روش ML متداول است. Kingdon [44] مجموعه ای از عوامل فعال ("Sentinels") را به همراه روش های احتمالی ، برای تشخیص وقایع و موجودات غیرمعمول که نشانگر ML است ، توسعه داده است. واند و همکاران.[45] دو روش جالب توجه را برای شناسایی موجودات مشکوک ارائه دهید. در تجزیه و تحلیل گروه همسالان ، یک نهاد (به عنوان مثال ، حساب) به عنوان یک هدف انتخاب می شود و با سایر نهادهای دیگر در پایگاه داده مقایسه می شود و یک گروه همکار از اشخاص شبیه به هدف هدف مشخص می شود. رفتار گروه همسالان سپس در هر نقطه زمانی بعدی خلاصه می شود و رفتار نهاد هدف با خلاصه گروه همسالان خود مقایسه می شود. آن نهادهای هدف که رفتارهای مختلف را با رفتار خلاصه گروه همسالان خود نشان می دهند ، پرچم گذاری شده اند. تجزیه و تحلیل نقطه شکست (BPA) پنجره ای را بر روی دنباله معاملات یک حساب می چرخاند و از تست های آماری برای مقایسه یک پنجره با موارد قبلی استفاده می کند تا هرگونه تغییر شدید در الگوهای معامله را تشخیص دهد (به عنوان مثال ، فرکانس ، مبالغ). Zengan [46] یک الگوریتم تشخیص دورتر مبتنی بر خوشه را برای شناسایی الگوهای مشکوک ML ایجاد کرد.

Ju و Zheng [47] یک الگوریتم درخت تصمیم گیری نظارت شده برای تشخیص ML ، همراه با یک استراتژی حفظ حریم خصوصی (پروتکل محصول داخلی) برای محافظت از هویت صاحبان حساب ، پیشنهاد کرده اند ، در صورتی که آنها به عنوان بخشی از ML مشکوک شناخته نشوند. Gao و Ye [48] در مورد یک روش برای AML بحث می کنند ، که در آن بسیاری از مراحل استفاده از تکنیک های مختلف برای استخراج داده ها مانند تشخیص دورتر ، تجزیه و تحلیل پیوند و تشخیص جامعه را انجام می دهد. با توجه به حجم معاملات عظیم ، [49] در مورد استفاده از فن آوری مکعب داده و OLAP در برنامه های AML بحث می کند. Phua و همکاران.[50] یک روش تشخیص کلاهبرداری برای پیش بینی الگوهای جنایی از داده های چسبان ، که از یک طبقه بندی متا (انباشت) استفاده می کند ، برای انتخاب بهترین طبقه بندی های پایه (لاوهای لاو ، C4. 5 و بازگشت به عقب) استفاده کرده و پیش بینی های آنها را ترکیب می کند.(کیف کردن) برای بهبود صرفه جویی در هزینه (جمع آوری انباشت). با توجه به کمبود داده های دارای برچسب ، تولید و استفاده از داده های معاملات مصنوعی که می توانند حاوی الگوهای مشکوک شناخته شده برای اعتبار الگوریتم های تشخیص ML مهم باشند. به [51] مراجعه کنید.

استراتژی‌های اسکالپ...
ما را در سایت استراتژی‌های اسکالپ دنبال می کنید

برچسب : نویسنده : ناصر تقوایی بازدید : 30 تاريخ : چهارشنبه 15 شهريور 1402 ساعت: 4:35