Rabitə qaydalarının kəşfiyyat analizi statistikada bir nümunədir. Kəşfedici Məlumatların Təhlili Protokolu: Kənar İdentifikasiya

1977-ci ildə tanınmış amerikalı riyaziyyatçı statistik tərəfindən yazılmış kitabda kəşfiyyat xarakterli məlumatların təhlilinin əsasları, yəni. ən sadə vasitələrlə - karandaş, kağız və slayd qaydası ilə həyata keçirilən müşahidələrin nəticələrinin ilkin emalı. Çoxsaylı nümunələrdən istifadə edərək, müəllif müşahidələrin diaqramlar, cədvəllər və qrafiklərdən istifadə edərək vizual formada təqdim edilməsinin nümunələrin müəyyənləşdirilməsini və daha dərin statistik emal üçün üsulların seçilməsini necə asanlaşdırdığını göstərir. Təqdimat təcrübədən zəngin materialdan ibarət çoxsaylı məşqlərlə müşayiət olunur. Canlı, obrazlı dil təqdim olunan materialın başa düşülməsini asanlaşdırır.

Con Tukey. Müşahidələrin nəticələrinin təhlili. Kəşfiyyat analizi. – M.: Mir, 1981. – 696 s.

Abstrakt yükləyin ( xülasə) formatında və ya , formatda nümunələr

Qeydin dərc edildiyi vaxt kitabı yalnız ikinci əl kitab mağazalarında tapmaq olar.

Müəllif statistik təhlili iki mərhələyə bölür: kəşfiyyat və təsdiqləyici. Birinci mərhələ müşahidə məlumatlarının transformasiyasını və onların vizuallaşdırılması yollarını əhatə edir, məlumatlarda görünən daxili nümunələri müəyyən etməyə imkan verir. İkinci mərhələdə parametrlərin qiymətləndirilməsi və fərziyyələrin yoxlanılması üçün ənənəvi statistik üsullar tətbiq edilir. Bu kitab kəşfiyyat xarakterli məlumatların təhlili haqqındadır (təsdiqedici təhlil üçün bax). Kitabı oxumaq üçün ehtimallar nəzəriyyəsi və riyazi statistika haqqında əvvəlcədən bilik tələb olunmur.

Qeyd. Baquzin. Kitabın yazıldığı ili nəzərə alaraq, müəllif karandaş, xətkeş və kağızdan (bəzən millimetr kağızı) istifadə edərək məlumatların vizuallaşdırılmasına diqqət yetirir. Fikrimcə, bu gün verilənlərin vizual təsviri PC ilə bağlıdır. Buna görə də müəllifin orijinal fikirlərini və Excel-də emalını birləşdirməyə çalışdım. Şərhlərim boşluqdur.

Fəsil 1

Diaqram bizi görməyi gözləmədiyimiz şeyləri görməyə məcbur edəndə ən dəyərlidir. Nömrələri gövdə və yarpaq şəklində təmsil etmək nümunələri müəyyən etməyə imkan verir. Məsələn, gövdənin əsası kimi onlarla götürsək, 35 rəqəmini gövdə 3-ə aid etmək olar. Yarpaq 5-ə bərabər olacaq. 108 rəqəmi üçün gövdə 10, yarpaq 8-dir.

Nümunə olaraq, normal qanuna uyğun olaraq paylanmış, orta dəyəri 10 və standart sapması 3 olan 100 təsadüfi ədəd götürdüm. Belə ədədləri əldə etmək üçün =NORM.INV(RAND();10;3) düsturundan istifadə etdim. Şəkil 1). Əlavə edilmiş Excel faylını açın. F9 düyməsini basmaqla siz təsadüfi ədədlərin yeni seriyasını yaradacaqsınız.

düyü. 1. 100 təsadüfi ədəd

Rəqəmlərin əsasən 5-dən 16-ya qədər olan diapazonda paylandığını görmək olar. Bununla belə, hər hansı maraqlı nümunəni müşahidə etmək çətindir. Gövdə və yarpaq sahəsi (Şəkil 2) normal paylanmanı göstərir. Qonşu nömrələrin cütləri gövdə kimi götürüldü, məsələn, 4-5. Yarpaqlar həmin diapazondakı dəyərlərin sayını əks etdirir. Bizim nümunəmizdə 3 belə dəyər var.

düyü. 2. Qrafik "gövdə və yarpaqlar"

Excel-də tezlik nümunələrini tez bir zamanda tədqiq etməyə imkan verən iki xüsusiyyət var: FREQUENCY funksiyası (Şəkil 3; ətraflı məlumat üçün baxın) və pivot cədvəlləri (Şəkil 4; ətraflı məlumat üçün bölməyə baxın. Rəqəmsal sahələrin qruplaşdırılması).

düyü. 3. FREQUENCY massivi funksiyasından istifadə edərək təhlil

düyü. 4. Pivot cədvəllərdən istifadə edərək təhlil

Yarpaqları olan bir gövdə şəklində təmsil (tezlik təmsili) məlumatların aşağıdakı xüsusiyyətlərini müəyyən etməyə imkan verir:

  • qruplara bölünmə;
  • uclara asimmetrik düşmə - bir "quyruq" digərindən daha uzundur;
  • gözlənilmədən “məşhur” və “populyar olmayan” mənalar;
  • müşahidələrin hansı dəyərdə “mərkəzləşdiyi” haqqında;
  • Məlumatda səpələnmə nə qədər böyükdür.

Fəsil 2. SADƏ MƏLUMATLARIN XÜLASƏSİ - ƏDƏDİ VƏ QRAFİKİ

Nömrələrin yarpaqları olan gövdə şəklində təsviri nümunənin ümumi mənzərəsini dərk etməyə imkan verir. Ən tez-tez baş verənləri qısa şəkildə ifadə etməyi öyrənmək vəzifəsi ilə qarşılaşırıq ümumi xüsusiyyətlər nümunələri. Bunun üçün məlumatların xülasəsi istifadə olunur. Bununla belə, xülasələr çox faydalı ola bilsə də, nümunənin bütün təfərrüatlarını təmin etmir. Əgər çaşqınlıq yaradacaq qədər bu təfərrüatlar yoxdursa, yaxşı olar ki, tam məlumatı bizim üçün aydın şəkildə rahat şəkildə yerləşdirək. Böyük məlumat dəstləri üçün xülasələr lazımdır. Onların tam məlumatları əvəz edəcəyini güman etmirik və ya gözləmirik. Əlbəttə ki, tez-tez təfərrüatların əlavə edilməsi çox az nəticə verir, lakin bəzən detalların çox şey etdiyini başa düşmək vacibdir.

Nümunəni bütövlükdə xarakterizə etmək üçün tapmaq asan olan bir neçə nömrə seçməliyiksə, yəqin ki, bizə lazım olacaq:

  • ekstremal dəyərlər - "1" simvolu ilə qeyd edəcəyimiz ən böyük və ən kiçik (rütbəsinə və ya dərinliyinə görə);
  • bəzi orta dəyər.

Median= orta dəyər.

Yarpaqları olan bir gövdə kimi təmsil olunan sıra üçün orta qiymət hər hansı bir ucdan geriyə saymaqla, ekstremal qiymətə "1" dərəcəsini təyin etməklə asanlıqla tapıla bilər. Beləliklə, nümunədəki hər bir dəyər öz dəyərini alır dərəcə. Hər iki tərəfdən saymağa başlaya bilərsiniz. Beləliklə əldə edilən iki rütbədən ən kiçiyi eyni dəyərə təyin edilə biləni çağıracağıq dərinlik(şək. 5). Ekstremal dəyərin dərinliyi həmişə 1-dir.

düyü. 5. İki sıralama istiqaməti əsasında dərinliyin müəyyən edilməsi

medianın dərinliyi (və ya dərəcəsi) = (1 + qiymətlərin sayı)/2

5-lik xülasə yaratmaq üçün daha iki ədəd əlavə etmək istəyiriksə, onda hər bir ucundan mediana qədər olan məsafənin yarısına qədər hesablamaqla onları müəyyən etmək təbiidir. Medianı və sonra bu yeni dəyərləri tapmaq prosesi bir kağız parçasını qatlama kimi düşünülə bilər. Ona görə də bu yeni dəyərlərin adlandırılması təbiidir qatlar(indi daha çox istifadə olunan termin kvartil).

Dağılan zaman 13 dəyər seriyası belə görünə bilər:

Artan ardıcıllıqla seriyanı xarakterizə etmək üçün beş rəqəm olacaq: -3.2; 0,1; 1.5; 3.0; 9.8 - cərgənin hər əyilmə nöqtəsində bir. 5 nömrəli xülasəni təşkil edən beş rəqəmi (ifrat, qat, median) aşağıdakı sadə diaqram şəklində təsvir edəcəyik:

solda rəqəmlərin sayını (# işarəsi ilə işarələnmiş), medianın dərinliyini (M hərfi), qıvrımların dərinliyini (C hərfi) və ekstremal dəyərlərin dərinliyini göstərdik (həmişə 1, başqa heç nə qeyd etməyə ehtiyac yoxdur).

Əncirdə. 8-də 5 rəqəmli xülasənin qrafik olaraq necə göstəriləcəyi göstərilir. Bu tip qrafiklərə bığlı qutu deyilir.

düyü. 8. Sxematik diaqram və ya bığ qutusu

Təəssüf ki, Excel adətən yalnız üç və ya dörd dəyərə əsaslanan birja qrafiklərini qurur (Şəkil 9; bu məhdudiyyəti necə keçəcəyinizə baxın). 5 rəqəmli xülasə yaratmaq üçün siz R statistik paketindən istifadə edə bilərsiniz (Şəkil 10; Əsas R qrafika imkanlarına baxın: təfərrüatlar üçün səpələnmə qrafikləri; R ilə tanış deyilsinizsə, ondan başlaya bilərsiniz). R-də boxplot() funksiyası 5 rəqəmdən əlavə, kənar göstəriciləri də əks etdirir (onlar haqqında bir az sonra).

düyü. 9. Excel-də fond qrafiklərinin mümkün növləri

düyü. 10. R-də Boxplot; belə bir qrafik qurmaq üçün boxplot (count ~ spray, data = InsectSprays) əmrini yerinə yetirmək kifayətdir, proqramda saxlanan məlumatlar yüklənəcək və təqdim olunan qrafik qurulacaq.

Bir qutu və bığ diaqramı qurarkən aşağıdakı sadə sxemə əməl edəcəyik:

  • "C-en" = iki qatın dəyərləri arasındakı fərq;
  • "addım" - C enindən bir yarım dəfə böyük dəyər;
  • "daxili maneələr" bir addım məsafədə olan kıvrımlardan kənarda;
  • "xarici maneələr" - xaricdən daxili maneələrdən bir addım irəli;
  • daxili və bitişik xarici maneələr arasındakı dəyərlər "xarici" olacaq;
  • xarici maneələrin arxasındakı dəyərlər "sıçrayış" (və ya kənar dəyərlər) adlanacaq;
  • "aralıq" = ekstremal dəyərlər arasındakı fərq.

düyü. 19. Hərəkətli medianın hesablanması: (a) məlumatların bir hissəsi üçün təfərrüatlı; (b) bütün nümunə üçün

düyü. 20. Hamar əyri

Fəsil 10. İKİ YOLLU ANALİZDƏN İSTİFADƏ EDİLMƏSİ

İkini nəzərdən keçirməyin vaxtı gəldi faktor təhlili həm əhəmiyyətinə görə, həm də müxtəlif tədqiqat metodlarına giriş olduğu üçün. İki faktorlu cədvəlin ("cavab" cədvəli) mərkəzində aşağıdakılar var:

  • bir növ cavab;
  • iki amil - və onların hər biri hər bir müşahidədə özünü göstərir.

Qalıqların iki faktorlu cədvəli. Sətir-üstəgəl-sütun təhlili.Əncirdə. Şəkil 21 Arizona ştatının üç yeri üçün orta aylıq temperaturu göstərir.

düyü. 21. Üç Arizona şəhərində orta aylıq temperatur, °F

Hər bir yer üçün medianı təyin edək və onu fərdi dəyərlərdən çıxaraq (şək. 22).

düyü. 22. Hər bir şəhər və qalıqlar üçün təxmini dəyərlər (medianlar).

İndi hər cərgə üçün təxmini (median) müəyyən edək və onu sıra dəyərlərindən çıxaraq (şək. 23).

düyü. 23. Hər ay və qalıqlar üçün təxmini dəyərlər (medianlar).

əncir üçün. 23 biz "təsir" anlayışını təqdim edirik. -24.7 rəqəmi sütun effekti, 19.1 rəqəmi isə sıra effektidir. Təsir müşahidə olunan dəyərlərin hər birində amilin və ya amillər toplusunun özünü necə göstərdiyini göstərir. Əgər faktorun ortaya çıxan hissəsi qalan hissədən daha böyükdürsə, o zaman verilənlərlə nə baş verdiyini görmək və anlamaq daha asandır. İstisnasız olaraq bütün məlumatlardan çıxarılan rəqəmə (burada 70.8) “cəmi” deyilir. Bu, bütün məlumatlar üçün ümumi olan bütün amillərin təzahürüdür. Beləliklə, Şəkildəki miqdarlar üçün. 23 düstur etibarlıdır:

Bu, konkret sıra-PLUS-sütun analizinin nümunəsidir. Biz sadə qismən təsviri tapmaq üçün köhnə hiyləmizə qayıdırıq - başa düşmək daha asan olan qismən təsvir - çıxılması bizə hələ təsvir olunmayanlara daha dərindən nəzər salacaq qismən təsvirdir.

Tam ikitərəfli təhlildən nə öyrənə bilərik? Ən böyük qalıq, 1,9, nöqtədən-nöqtəyə və aydan aya təsir dəyişməsinin böyüklüyü ilə müqayisədə kiçikdir. Flagstaff Phoenix-dən təxminən 25 ° F soyuq, Yuma isə Phoenix-dən 5-6 ° F daha istidir. Ayların təsir ardıcıllığı aydan aya monoton şəkildə, əvvəlcə yavaş-yavaş, sonra sürətlə, sonra yenidən yavaş-yavaş azalır. Bu, oktyabr ayı ətrafında simmetriyaya bənzəyir (mən bu nümunəni daha əvvəl günün uzunluğu nümunəsində müşahidə etmişəm; bax. - Qeyd. Baguzina); Hər iki örtüyü - mövsümün təsirini və yerin təsirini çıxardıq. Bundan sonra biz əvvəllər diqqətdən kənarda qalan bir çox şeyi görə bildik.

Əncirdə. 24 verilir iki faktorlu diaqram. Bu rəqəmdə əsas şey təxmini olsa da, qalıqları da nəzərdən qaçırmamalıyıq. Dörd nöqtədə qısa şaquli xətlər çəkdik. Bu tirelərin uzunluqları müvafiq qalıqların qiymətlərinə bərabərdir ki, ikinci ucların koordinatları təxmini dəyərlər deyil, lakin

Məlumat = təxmini PLUS qalıq.

düyü. 24. İki faktorlu diaqram

Həm də nəzərə alın ki, bu və ya hər hansı digər iki faktorlu diaqramın xassəsi "yalnız bir istiqamətdə miqyasdır", şaquli ölçüsü müəyyən edir, yəni. şəklin yanları boyunca çəkilmiş nöqtəli üfüqi xətlər və üfüqi istiqamətdə heç bir ölçünün olmaması.

Excel xüsusiyyətləri üçün baxın. Maraqlıdır ki, bu qeyddə istifadə olunan düsturlardan bəziləri Tukey adını daşıyır.

Sonra baş verənlər, mənim fikrimcə, olduqca mürəkkəb oldu ...

07/29/2008 yenilənib

Proteomik məlumatların emalı zamanı statistik metodların tətbiqi ilə bağlı kifayət qədər xaotik fikirlərim.

PROTEOMİKADA STATİSTİKANIN TƏTBİQİ

Eksperimental məlumatların təhlili üsullarının nəzərdən keçirilməsi

Pyatnitsky M.A.

Dövlət Biotibbi Kimya Elmi-Tədqiqat İnstitutu. V.N. Orekhoviç RAMS

119121, Moskva, Poqodinskaya küç. d.10,

e-poçt: mpyat @bioinformatika.az

Proteomik təcrübələr nəticələrin diqqətlə düşünülmüş statistik emalı tələb edir. Proteomik məlumatları xarakterizə edən bir neçə vacib xüsusiyyət var:

  • çoxlu dəyişənlər var
  • bu dəyişənlər arasında mürəkkəb əlaqələr. Bu əlaqələrin bioloji faktları əks etdirdiyi güman edilir.
  • dəyişənlərin sayı nümunələrin sayından xeyli çoxdur. Bu, bir çox statistik metodların işləməsini çox çətinləşdirir.

Bununla belə, oxşar xüsusiyyətlər yüksək məhsuldarlıq texnologiyalarından istifadə etməklə əldə edilən bir çox digər məlumatlara da xasdır.

Proteomik təcrübənin tipik vəzifələri:

  • müxtəlif qruplar arasında protein ifadə profillərinin müqayisəsi (məsələn, xərçəng/normal). Adətən vəzifə bir qrupu digərindən ayırmağa imkan verən qərar qaydası qurmaqdır. Ən yüksək diskriminasiya qabiliyyətinə malik dəyişənlər (biomarkerlər) də maraq doğurur.
  • zülallar arasındakı əlaqələrin öyrənilməsi.

Burada mən əsasən statistik məlumatların kütlə spektrlərinin təhlilinə tətbiqinə diqqət yetirəcəyəm. Bununla belə, deyilənlərin çoxu digər eksperimental məlumat növlərinə də aiddir. Burada metodların özləri demək olar ki, nəzərdən keçirilmir (ROC əyrilərinin daha ətraflı təsviri istisna olmaqla), əksinə məlumatların təhlili metodlarının arsenalı çox qısa şəkildə təsvir edilmişdir və onun mənalı tətbiqi üçün konturlar verilmişdir.

Kəşfiyyat təhlili

Hər hansı bir məlumat dəsti ilə işləməkdə ən vacib addım kəşfiyyat məlumatlarının təhlilidir (EDA). Məncə, bu, məlumatların statistik emalının bəlkə də ən vacib məqamıdır. Məhz bu mərhələdə məlumatlar haqqında fikir əldə etməli, hansı metodların tətbiq edilməsinin ən yaxşı olduğunu və daha da əhəmiyyətlisi hansı nəticələrin gözlənildiyini başa düşməlisiniz. Əks halda, bu, kor-koranə bir oyun (və belə və belə bir metodu sınayaq), statistika arsenalının mənasız sadalanması, məlumatların axtarışı olacaq. Statistika təhlükəlidir, çünki həmişə bir növ nəticə verəcəkdir. İndi, ən mürəkkəb hesablama metodunu işə salmaq üçün yalnız bir neçə siçan kliklənməsi tələb olunur, bu xüsusilə doğrudur.

Tukey görə, kəşfiyyat analizinin məqsədləri:

  • məlumat dəstini maksimum dərəcədə artırmaq;
  • əsas strukturu aşkar etmək;
  • mühüm dəyişənləri çıxarmaq;
  • kənar və anomaliyaları aşkar etmək;
  • əsas fərziyyələri sınaqdan keçirmək;
  • sadə modellər hazırlamaq; və
  • optimal amil parametrlərini müəyyənləşdirin.

Bu mərhələdə, ilk növbədə qrafik alətlərdən istifadə etməklə, verilənlər haqqında mümkün qədər çox məlumat əldə etmək müdrikdir. Hər bir dəyişən üçün histoqramlar tərtib edin. Nə qədər bayağı səslənsə də, təsviri statistikaya nəzər salın. Səpələnmə qrafiklərinə baxmaq faydalıdır (siniflərə aid olduğunu göstərən müxtəlif simvollarla nöqtələr çəkərkən). nəticələrə baxmaq maraqlıdır PCA (əsas komponent təhlili)MDS (çoxölçülü miqyaslama). Beləliklə, EDA ilk növbədədir geniş tətbiq qrafik vizualizasiya.

Ən "maraqlı" məlumat proyeksiyasını tapmaq üçün proyeksiya təqibi üsullarından istifadə etmək ümidvericidir. Adətən, bu işin müəyyən dərəcədə avtomatlaşdırılması mümkündür (GGobi ). Maraqlı proqnozlar axtarmaq üçün indeks seçmək ixtiyaridir.

Normallaşma

Adətən məlumatlar normal paylanmır, bu da statistik prosedurlar üçün əlverişli deyil. Log-normal paylanma ümumi haldır. Sadə bir loqarifm paylanmanı daha xoş hala gətirə bilər. Ümumiyyətlə, loqarifm və digər məlumatların çevrilməsi kimi sadə üsulları qiymətləndirməyin. Təcrübədə bir dəfədən çox hallar var ki, loqarifm götürdükdən sonra mənalı nəticələr əldə olunmağa başlayır, baxmayaraq ki, əvvəlcədən emaldan əvvəl nəticələr az məzmunlu idi (burada şərabların kütləvi spektrometriyasına dair bir nümunə var).

Ümumiyyətlə, normallaşdırmanın seçimi bir çox əsərin həsr olunduğu ayrı bir problemdir. Ön emal və miqyaslama metodunun seçimi təhlilin nəticələrinə əhəmiyyətli dərəcədə təsir göstərə bilər (Berg et al, 2006). Məncə, bu üsullardan ümumiyyətlə istifadə etməməkdənsə, həmişə standart olaraq ən sadə normallaşdırmanı (məsələn, paylanma simmetrik və ya başqa halda loqarifmdirsə) həyata keçirmək daha yaxşıdır.

Qrafik vizuallaşdırma və kəşfiyyat xarakterli məlumatların təhlili üçün sadə statistik metodların tətbiqi ilə bağlı bəzi nümunələr.

Nümunələr

Aşağıda hər bir dəyişən üçün qurmaq mənalı ola biləcək qrafik nümunələri verilmişdir. Solda iki sinifin hər biri üçün paylanma sıxlığının təxminləri var (qırmızı - xərçəng, mavi - nəzarət). Diqqət yetirin ki, qrafiklərin altında dəyərlərin özləri də təqdim olunur, buna görə sıxlıq təxmini qurulur. ROC əyrisi sağda və onun altındakı sahə göstərilir. Beləliklə, siniflər arasında diskriminator kimi hər bir dəyişənin potensialını dərhal görmək olar. Axı, adətən siniflər arasında ayrı-seçkilik olur son məqsəd proteomik məlumatların statistik təhlili.

Aşağıdakı şəkildə normallaşmanın təsviri göstərilir: loqarifmik olaraq qəbul edildikdə kütləvi spektrdə tipik pik intensivlik paylanması (sağda) normala yaxın paylanma verir.

Sonra, kəşfiyyat məlumatlarının təhlili üçün istilik xəritəsinin istifadəsini göstərəcəyik. Sütunlar - xəstələr, sıralar - genlər. Rəng ədədi dəyəri göstərir. Bir neçə qrupa aydın bölünmə görünür. Bu, sizə məlumatların dərhal şəklini verən EDA tətbiqinin gözəl nümunəsidir.

Aşağıdakı şəkildə gel-görünüş qrafikinin nümunəsi göstərilir. Bu, geniş spektrlərin vizuallaşdırılması üçün standart bir texnikadır. Hər bir sıra bir nümunədir, hər sütun bir zirvədir. Dəyərin intensivliyi rənglə kodlanır (nə qədər parlaq olsa, bir o qədər yaxşıdır). Belə şəkilləri, məsələn, ClinProTools-da əldə etmək olar. Ancaq böyük bir çatışmazlıq var - xətlər (nümunələr) yükləndikləri ardıcıllıqla gedir. Xətləri (nümunələri) elə yerləşdirmək daha düzgündür ki, yaxın nümunələr yan-yana və diaqramda yerləşsin. Əslində, bu, yanlarda sütunlar və dendroqramlar çeşidlənmədən istilik xəritəsidir.

Aşağıdakı şəkildə çoxölçülü miqyaslaşdırmanın tətbiqi nümunəsi göstərilir. Dairələr - nəzarət, üçbucaqlar - xərçəng. Xərçəngin əhəmiyyətli dərəcədə daha böyük bir fərqə sahib olduğu və bir qərar qaydasının qurulması olduqca mümkündür. Belə bir maraqlı nəticə yalnız ilk iki koordinat üçün əldə edilir! Belə bir mənzərəyə baxdıqda, məlumatların sonrakı emalının nəticələri ilə bağlı nikbinliklə dolmaq olar.

Çatışmayan dəyər problemi

Tədqiqatçının qarşılaşdığı növbəti problem çatışmayan dəyərlər problemidir. Yenə də bu mövzuya həsr olunmuş çoxlu kitablar var, onların hər biri bu problemi həll etməyin onlarla yollarını təsvir edir. Çatışmayan dəyərlər tez-tez yüksək məhsuldarlıq təcrübələri ilə yaradılan məlumatlarda tapılır. Bir çox statistik üsullar tam məlumat tələb edir.

Çatışmayan dəyərlər problemini həll etməyin əsas yolları bunlardır:

. itkin dəyərləri olan sətirləri/sütunları silin. Nisbətən bir neçə itkin dəyər varsa əsaslandırılır, əks halda hər şeyi silməli olacaqsınız

. çatışmayanları əvəz etmək üçün yeni məlumat yaratmaq (orta ilə əvəz etmək, təxmin edilən paylanmadan almaq)

. itkin məlumatlara həssas olmayan üsullardan istifadə edin

. yenidən sınaq!

Emissiya problemi

Kənar göstərici əsas qrupdan kəskin fərqli göstəricilərə malik nümunədir. Yenə də bu mövzu müvafiq ədəbiyyatda dərindən və geniş şəkildə işlənmişdir.

Emissiya riski nədir? Hər şeydən əvvəl, bu, qeyri-möhkəm (məhdud göstəricilərə davamlı olmayan) statistik prosedurların işinə əhəmiyyətli dərəcədə təsir göstərə bilər. Məlumatlarda hətta bir kənar göstəricinin olması orta və dispersiya təxminlərini əhəmiyyətli dərəcədə dəyişə bilər.

Çoxvariantlı məlumatlarda kənar göstəriciləri görmək çətindir, çünki onlar yalnız bir və ya iki dəyişənin dəyərlərində görünə bilər (xatırlatmaq istəyirəm ki, tipik bir vəziyyətdə proteomik təcrübə yüzlərlə dəyişən tərəfindən təsvir olunur). Burada hər bir dəyişəni ayrı-ayrılıqda təhlil etmək faydalı olur - təsviri statistikaya və ya histoqramlara (yuxarıda verilmişlər kimi) baxarkən belə bir kənar göstəricini aşkar etmək asandır.

Kənarları axtarmaq üçün iki strategiya var:

1) əl ilə - səpələnmə sahəsinin təhlili, PCA və digər kəşfiyyat analizi üsulları. Bir dendroqram qurmağa çalışın - bunun üzərində kənar, kökdən erkən ayrılan ayrı bir budaq şəklində görünəcəkdir.

2) 2) aşkarlama üçün bir çox meyarlar işləyib hazırladı (Yang, Mardia, Schjwager,…)

Emissiyaya nəzarət

. kənar göstəricilərin aradan qaldırılması

. kənara davamlı (sağlam) statistik üsulları tətbiq etmək

Eyni zamanda, nəzərə almaq lazımdır ki, kənar göstərici mümkündür - bu, eksperimental səhv deyil, bəzi mahiyyətcə yeni bioloji faktdır. Bu, əlbəttə ki, çox nadir hallarda baş verir, amma yenə də ...

Aşağıdakı rəqəm statistikaya təsirinin növünə görə mümkün kənar göstəriciləri göstərir.

Gəlin kənar göstəricilərin korrelyasiya əmsallarının davranışına necə təsir etdiyini göstərək.

(f) işi ilə maraqlanırıq. Görünür ki, yalnız 3 kənar göstəricinin olması Pearson korrelyasiya əmsalının dəyərini 0,68-ə bərabər verir, Spearman və Kendall əmsalları isə daha ağlabatan qiymətləndirmələr verir (korrelyasiya yoxdur). Düzdür, Pearson korrelyasiya əmsalı qeyri-sabit statistikadır.

Biz kənar göstəricilərin vizual aşkarlanması üçün PCA metodunun tətbiqini göstərəcəyik.

Əlbəttə ki, həmişə bu cür "sənətkar" aşkarlama üsullarına etibar etməməlisiniz. Ədəbiyyata müraciət etmək daha yaxşıdır.

Təsnifat və ölçülərin azaldılması

Adətən, proteomik məlumatların təhlilinin əsas məqsədi bir nümunə qrupunu digərindən (məsələn, xərçəng/normal) ayırmaq üçün qərar qaydası qurmaqdır. Kəşfiyyat analizi və normallaşdırma apardıqdan sonra, növbəti addım adətən xüsusiyyət sahəsinin ölçüsünü azaltmaqdır (ölçülülüyün azaldılması).

Dəyişənlərin seçilməsi

Çox sayda dəyişən (və bu proteomik təcrübələrdə standart vəziyyətdir):

. məlumatların təhlilini çətinləşdirir

. adətən bütün dəyişənlərin bioloji şərhi olmur

. tez-tez işin məqsədi "maraqlı" dəyişənləri (biomarkerlər) seçməkdir.

. təsnifat alqoritmlərinin işini pisləşdirir. Buna görə - yenidən hazırlıq (overfitting).

Buna görə də, standart addım təsnifləşdirmədən əvvəl ölçülərin azaldılması tətbiq etməkdir

Ölçülərin azaldılması üsulları 2 növə bölmək olar:

1) filtr

Bu metodlar qrupunun vəzifələri ya artıq mövcud olan "maraqsız" dəyişənlərin çıxarılması, ya da köhnələrin xətti birləşmələri kimi yeni dəyişənlərin yaradılmasıdır. Bunlara daxildir

PCA, MDS,

informasiya nəzəriyyəsi metodları və s.

Başqa bir fikir “maraqlı dəyişənlərin” yönləndirilmiş seçimidir: məsələn, bimodal dəyişənlərə baxmaq həmişə maraqlıdır (ideal olaraq, hər bir zirvə binar təsnifat üçün fərqli sinifə uyğundur). Ancaq bunu kəşfiyyat analizinə aid etmək olar.

Başqa bir yanaşma yüksək korrelyasiyalı dəyişənləri aradan qaldırmaqdır. Bu yanaşmada dəyişənlər məsafə ölçüsü kimi korrelyasiya əmsallarından istifadə etməklə qruplaşdırılır. Siz təkcə Pearson korrelyasiyasından deyil, digər əmsallardan da istifadə edə bilərsiniz. Əlaqəli dəyişənlərin hər çoxluğundan yalnız biri qalır (məsələn, ən böyük sahə meyarına görə) ROC əyrisi).

Şəkil istifadə edərək zirvələrin belə bir klaster analizinin vizuallaşdırılması nümunəsini göstərir istilik xəritəsi . Matris simmetrikdir, rəng Pearson korrelyasiya əmsalının dəyərlərini göstərir (mavi - yüksək korrelyasiya dəyərləri, qırmızı - aşağı dəyərlər). Yüksək dərəcədə asılı dəyişənlərin bir neçə klasteri aydın şəkildə fərqlənir.



2) Sarğı

Burada təsnifat alqoritmləri seçilmiş dəyişənlər toplusunun keyfiyyətinin ölçüsü kimi istifadə olunur. Optimal həll dəyişənlərin bütün kombinasiyalarının tam sadalanmasıdır, çünki dəyişənlər arasında mürəkkəb əlaqələr mövcuddur.

Ayrı-ayrılıqda ayrı-seçkilik yaratmayan iki dəyişən üçüncü əlavə edildikdə belə vəziyyət yarandıqda vəziyyət olduqca mümkündür. Aydındır ki, hər hansı əhəmiyyətli sayda dəyişən üçün hərtərəfli sadalama hesablama baxımından qeyri-mümkündür.

Bu "ölçülülük lənətini" aradan qaldırmaq cəhdi dəyişənlərin optimal dəstini tapmaq üçün genetik alqoritmlərdən istifadə etməkdir. Başqa bir strategiya Akaike İnformasiya Kriteriyalarının və ya Bayes Məlumat Kriteriyalarının dəyərinə nəzarət edərkən dəyişənləri bir-bir daxil etmək/çıxarmaqdır.

Bu qrup üsullar üçün çarpaz doğrulama məcburidir. Bu barədə daha ətraflı təsnifatçıların müqayisəsi bölməsində yazılmışdır.

Təsnifat

Vəzifə yeni işlənmiş nümunənin bu və ya digər sinfə təyin edilməsinə imkan verəcək qərar qəbul etmə qaydasını qurmaqdır.

Müəllimsiz öyrənmək - klaster analizi. Bu, obyektlərin ən yaxşı (müəyyən mənada) qruplaşmalarının axtarışıdır. Təəssüf ki, adətən klasterlərin sayını təyin etməlisiniz a priori və ya kəsilmə həddi seçin (iyerarxik qruplaşma üçün). Həmişə xoşagəlməz bir özbaşınalıq təqdim edir.

Müəllimlə öyrənmək: neyron şəbəkələri, SVM, qərar ağacları, ...

Əvvəlcədən təsnif edilmiş obyektləri olan böyük bir nümunə tələb olunur.

Adətən nəzarətsiz öyrənmə ilə müqayisədə daha yaxşı işləyir Çarpaz doğrulama - test nümunəsi olmadıqda. Həddindən artıq uyğunlaşma problemi var

Nadir hallarda həyata keçirilən vacib və sadə bir test təsadüfi məlumatlar üzərində təlim keçmiş təsnifatçının işləməsidir. Orijinal nümunənin ölçüsünə bərabər ölçüdə bir matris yaradın, onu təsadüfi səs-küy və ya normal paylama ilə doldurun, normallaşdırma, dəyişənlərin seçilməsi və təlim daxil olmaqla bütün texnikaları yerinə yetirin. Ağlabatan nəticələr əldə edildiyi təqdirdə (yəni, təsadüfi səs-küyü tanımağı öyrəndiniz), qurulmuş təsnifata inanmaq üçün daha az səbəb olacaq.

Daha asan bir yol var - dəyişənlərin qalan hissəsinə toxunmadan hər bir obyekt üçün sinif etiketlərini təsadüfi olaraq dəyişdirin. Bu, yenidən mənasız bir məlumat dəsti ilə nəticələnəcək, bunun üzərində təsnifatlaşdırıcını işə salmağa dəyər.

Mənə elə gəlir ki, qurulmuş təsnifata yalnız təsadüfi məlumatların tanınması üçün yuxarıda göstərilən testlərdən ən azı biri yerinə yetirildikdə etibar edilə bilər.

ROC əyrisi

Qəbuledici-Əməliyyat Xarakterikası əyrisi

. Təsnifatın nəticələrini 2 sinifdə təqdim etmək üçün istifadə olunur, bu şərtlə ki, cavab məlum olsun, yəni. düzgün bölmə məlumdur.

. Güman edilir ki, təsnifatçının bu və ya digər iki sinfə bölünmənin əldə edildiyini dəyişən bir parametr (kəsmə nöqtəsi) var.

Bu, yanlış müsbət (FP) və yanlış mənfi nəticələrin (FN) nisbətini müəyyən edir. Həssaslıq və spesifiklik hesablanır, koordinatlarda qrafik çəkilir (1-spesifiklik, həssaslıq). Təsnifat parametrini dəyişdirərkən, FP və FN-nin fərqli dəyərləri əldə edilir və nöqtə ROC əyrisi boyunca hərəkət edir.

. Dəqiqlik = (TP +TN ) / (TP +FP +FN +TN )

. Həssaslıq = TP / TP+FN

. Xüsusiyyət = TN / TN+FP

“Müsbət” hadisənin nə olması problemin şərtlərindən asılıdır. Xəstəliyin olması ehtimalı proqnozlaşdırılırsa, müsbət nəticə "xəstə xəstə", mənfi nəticə "sağlam xəstə" sinfidir.

Ən təsviri izahat (ROC ideyasının mahiyyətini göstərən əla java proqramları ilə) http://www.anaesthetist.com/mnm/stats/roc/Findex.htm saytında gördüm.

ROC əyrisi:

. İki təsnifatçının müqayisəli səmərəliliyinin təhlili üçün istifadə etmək rahatdır.

. Əyri yuxarı sol küncə nə qədər yaxındırsa, model bir o qədər proqnozlaşdırılır.

. Diaqonal xətt "yararsız təsnifata" uyğun gəlir, yəni. siniflərin tam fərqlənməməsi

. Vizual müqayisə həmişə hansı təsnifatçının üstünlük təşkil etdiyini dəqiq qiymətləndirməyə imkan vermir.

. AUC - Əyri altındakı sahə - ROC əyrilərini müqayisə etməyə imkan verən ədədi təxmin.

. 0-dan 1-ə qədər dəyərlər.

İki ROC əyrisinin müqayisəsi

Klassifikatorların müqayisəsi üçün ölçü kimi əyri altındakı sahə (AUC).

ROC əyrilərinin digər nümunələri kəşfiyyat analizi bölməsində verilmişdir.

Təsnifatlayıcıların müqayisəli təhlili

Nümunələrin tanınması üsullarının tətbiqində bir çox variant var. Mühüm vəzifə müxtəlif yanaşmaları müqayisə etmək və ən yaxşısını seçməkdir.

Bu gün proteomikaya dair məqalələrdə (yalnız deyil) təsnifatlandırıcıları müqayisə etməyin ən çox yayılmış yolu çarpaz doğrulamadır. Məncə, çarpaz doğrulama prosedurunu bir dəfə tətbiq etməyin mənası azdır. Daha ağıllı yanaşma, çarpaz yoxlamanı bir neçə dəfə həyata keçirməkdir (ideal olaraq, nə qədər çox olsa, bir o qədər yaxşıdır) və təsnifat dəqiqliyini qiymətləndirmək üçün etimad intervalları qurmaqdır. Etibar intervallarının olması, məsələn, təsnifat keyfiyyətinin 0,5% yaxşılaşmasının statistik cəhətdən əhəmiyyətli olub-olmaması barədə əsaslı qərar verməyə imkan verir. Təəssüf ki, yalnız az sayda tədqiqat dəqiqlik, həssaslıq və spesifiklik üçün etimad intervallarını təmin edir. Bu səbəbdən, digər əsərlərdə verilən rəqəmləri bir-biri ilə müqayisə etmək çətindir, çünki mümkün dəyərlərin diapazonu göstərilmir.

Başqa bir məsələ çarpaz doğrulama növünün seçimidir. Mən leave -one -out əvəzinə 10 qat və ya 5 qat çarpaz doğrulamağa üstünlük verirəm.

Əlbəttə ki, çarpaz doğrulamadan istifadə "çarəsizlik aktıdır". İdeal olaraq nümunə 3 hissəyə bölünməlidir: model birinci hissədə qurulur, ikinci hissədə bu modelin parametrləri optimallaşdırılır və üçüncü hissədə yoxlama aparılır. Çarpaz doğrulama bu konstruksiyalardan qaçmaq cəhdidir və yalnız az sayda nümunə ilə əsaslandırılır.

Çarpaz doğrulama prosedurunun çoxsaylı buraxılışlarından biri digərini öyrənə bilər faydalı məlumat. Məsələn, tanınma prosedurunun hansı obyektlərdə daha tez-tez uğursuz olduğunu görmək maraqlıdır. Ola bilsin ki, bunlar verilənlərdəki səhvlər, kənar göstəricilər və ya digər maraqlı hallardır. Bu obyektlərin xarakterik xüsusiyyətlərini araşdıraraq, bəzən təsnifat prosedurunuzu hansı istiqamətdə təkmilləşdirməyə dəyər olduğunu başa düşmək olar.

Aşağıda Moshkovskii et al, 2007 üçün təsnifat müqayisə cədvəli verilmişdir. Təsnifatçılar kimi SVM və logistik reqressiya (LR) istifadə edilmişdir. Xüsusiyyət seçim üsulları idi AzadlıqRadiosu (Re kursiv Xüsusiyyətlərin aradan qaldırılması) və Ən çox qazanan cütlər (TSP). Etibar intervallarının istifadəsi müxtəlif təsnifat sxemlərinin əhəmiyyətli üstünlüklərini əsaslı şəkildə mühakimə etməyə imkan verir.

Ədəbiyyat

Budur proteomik məlumatların təhlilində faydalı ola biləcək bəzi kitablar və məqalələr.

C. Bishop, Nümunələrin tanınması üçün neyron şəbəkələri

* Berrar, Dubitzky, Granzow. Mikroarray verilənlərin təhlilinə praktiki yanaşma (Kluwer, 2003). Kitab mikroarray emalı haqqındadır (baxmayaraq ki, mən bunu mövzuya giriş kimi tövsiyə etməzdim), lakin bir neçə maraqlı fəsil də var. Oradan kənar göstəricilərin korrelyasiya əmsallarına təsiri ilə təsvir edilmişdir.

* ilə işarələnmiş ədəbiyyat elektron formadadır və müəllif onu pulsuz paylaşır (yəni pulsuz)

Kəşfiyyat məlumatlarının təhlili (ADA; Exploratory data analysis) o zaman istifadə olunur ki, bir tərəfdən tədqiqatçı çoxölçülü verilənlər cədvəlinə malik olsun, digər tərəfdən isə bu məlumatların əmələ gəlməsinin fiziki (səbəb-nəticə) mexanizmi haqqında aprior məlumat. əskik və ya natamam. Bu vəziyyətdə, RAD tədqiqatçı üçün məlumat strukturunun yığcam və başa düşülən təsvirinə kömək edə bilər (məsələn, bu strukturun vizual təsviri şəklində), ondan başlayaraq o, artıq "hədəf" sualını qaldıra bilər. statistik təhlilin bu və ya digər bölməsindən istifadə edərək məlumatların daha ətraflı öyrənilməsi. , statistik fərziyyələri yoxlamaq üçün aparatdan istifadə etməklə əldə edilmiş məlumat strukturunun əsaslandırılması, həmçinin, ola bilsin ki, səbəbli məlumat modeli haqqında bəzi nəticələr çıxarmaq. Bu addım "təsdiqedici məlumatların təhlili" adlanır. Bəzən RAD-ın köməyi ilə verilənlər strukturunun aşkarlanması da təhlilin son mərhələsi ola bilər. Digər tərəfdən, bir sıra RAD metodları da verilənlərin strukturunun tədqiqi aparılmadan sonrakı statistik emal üçün məlumatların hazırlanması üsulları hesab edilə bilər ki, bu da sonrakı mərhələlərdə həyata keçirilməlidir.

Bu halda, RAD mərhələsi məlumatların yenidən kodlaşdırılması və transformasiyasının müəyyən mərhələsi rolunu oynayır (məsələn, ölçüsü azaltmaqla) sonrakı təhlil üçün əlverişli bir forma. İstənilən halda, RAD metodlarından hansı məqsədlə istifadə olunsa da, əsas vəzifə ilkin verilənlərdə olan məlumatın mühüm aspektlərini mümkün qədər tam şəkildə saxlamaqla, məlumatların kompakt təsvirinə keçməkdir. Təsvirin istifadəçi üçün başa düşülməsi də vacibdir. “Kəşfiyyat məlumatlarının təhlili” termini ilk dəfə 1962-ci ildə C.Tukey tərəfindən təqdim edilmişdir.

Çoxölçülü verilənlərin strukturunun modelləri. Verilənlər məlumat matrisi kimi verilsin. Obyektlər çoxölçülü (p-ölçülü) fəzada nöqtələr kimi təqdim oluna bilər. Bu nöqtələr dəstinin strukturunu təsvir etmək üçün RAD aşağıdakı statistik modellərdən birini istifadə edir:

a) təxminən ellipsoid konfiqurasiyalı nöqtə bulud modeli;

b) klaster modeli, yəni bir-birindən kifayət qədər uzaqda olan bir neçə "bulud" nöqtələri toplusu;

c) “çirklənmə” modeli (nöqtələrin yığcam buludları və eyni zamanda uzaq kənar göstəricilər var);

d) orijinaldan daha aşağı ölçülü bir manifold (xətti və ya qeyri-xətti) kimi nöqtələrin dayaq modeli; tipik bir nümunə degenerasiya paylanmasından nümunədir;

e) xalların hansısa şəkildə bir neçə qrupa bölündüyü və onların müəyyən qrupa aidiyyəti haqqında məlumat verildiyi zaman diskriminant model.

Model çərçivəsində reqressiya modeli də müvafiq manifold funksional təsviri qəbul etdikdə nəzərdən keçirilə bilər, burada ilkin dəstdən iki qrup dəyişən var (dan dəyişənlər sonra proqnozlaşdırılan dəyişənlər, dən isə proqnozlaşdırılan dəyişənlərdir); - proqnoz xətası.

Əlbəttə ki, real məlumatlar adətən bu modelləri təqribən təqib edə bilər, üstəlik, məlumat strukturu təsvirdə göstərilən modellərin heç birinə hətta təxminən uyğun gəlməyə bilər.

Asılılıqların strukturunu təsvir etmək üçün modellər. Dəyişənlər fəzasında tez-tez dəyişənlər arasında asılılıqların strukturunu təsvir etmək üçün aşağıdakı modellərdən istifadə olunur: müstəqil dəyişənlər modeli, xətti asılı dəyişənlər modeli, ağaca bənzər asılılıq modeli, xətti asılı dəyişənlər üçün faktorial model, klaster modeli (ixtiyari birləşmə). əmsallar), iyerarxik asılılıq modeli.

Kəşfiyyat xarakterli məlumatların təhlilinin aparılmasında əsas metodoloji üsullar. Nəticələrin təhlili və şərhi üsulları əsasən seçilmiş emal üsulundan asılıdır. Bununla belə, nəticələrin təhlili üçün ən ümumi olan və faktiki kəşfiyyat təhlilinin xüsusiyyətlərini müəyyən edən, onu statistik emalın digər mərhələlərindən fərqləndirən bir sıra effektiv metod və yanaşmaları ayırmaq mümkündür. Bu, qrafik displey əsasında verilənlərin vizuallaşdırılması və verilənlərin manipulyasiyasıdır; aktiv və illüstrativ dəyişənlər aparatından istifadə; strukturların müəyyənləşdirilməsini asanlaşdıran məlumatların çevrilməsi, qalıqların təhlili.


“Məlumatların əldə edilməsi” anlayışı müəyyən qanunauyğunluqları və dəyişənlər arasında sistematik əlaqələri müəyyən etmək üçün böyük həcmdə məlumatın (adətən iqtisadi xarakter daşıyan) analitik tədqiqi prosesi kimi müəyyən edilir və sonradan yeni məlumat toplularına tətbiq oluna bilər. Bu prosesə üç əsas addım daxildir: kəşfiyyat, model və ya strukturun qurulması və sınaqdan keçirilməsi. İdeal olaraq, kifayət qədər məlumatla, sabit (möhkəm) model qurmaq üçün iterativ prosedur təşkil edilə bilər. Eyni zamanda, real vəziyyətdə yoxlamaq demək olar ki, mümkün deyil iqtisadi model təhlil mərhələsində və buna görə də ilkin nəticələr qərar qəbul etmə prosesində istifadə oluna bilən evristik xarakterə malikdir (məsələn, “Mövcud sübutlar göstərir ki, qadınlarda yuxu həblərinin istifadə tezliyi yaşla kişilərə nisbətən daha tez artır. ").

Data mining üsulları, xüsusilə qeyri-müəyyənlik şəraitində qərar qəbul etmək üçün mövcud məlumatlardan biliyin çıxarılması gözlənildikdə, iqtisadi məlumatların təhlili üçün alət kimi getdikcə populyarlaşır. Baxmayaraq ki, son vaxtlar xüsusi olaraq biznes üçün yeni məlumatların təhlili metodlarının hazırlanmasına maraq artmışdır (məsələn, Təsnifat ağacları), ümumiyyətlə, verilənlərin öyrənilməsi sistemləri hələ də klassik prinsiplərə əsaslanır kəşfiyyat məlumatlarının təhlili(RAD) və model qurmaq və eyni yanaşma və metodlardan istifadə etmək.

Bununla belə, verilənlərin öyrənilməsi proseduru ilə klassik kəşfiyyat məlumatlarının təhlili (EDA) arasında mühüm fərq var: verilənlərin öyrənilməsi sistemləri fenomenin mahiyyətini aydınlaşdırmaqdansa, əldə edilən nəticələrin praktiki tətbiqinə daha çox diqqət yetirir. Başqa sözlə, verilənləri çıxararkən, tapşırıq dəyişənləri arasındakı xüsusi asılılıq növü ilə çox maraqlanmırıq. Bu deyil əsas məqsəd bu prosedur. Əsas diqqət etibarlı proqnozlar qurmaq mümkün olan həllərin tapılmasına yönəldilir. Beləliklə, data mining sahəsində məlumatların təhlili və biliklərin çıxarılmasına yanaşma qəbul edilir ki, bu da bəzən “qara qutu” sözləri ilə xarakterizə olunur. Bu halda, yalnız kəşfiyyat məlumatlarının təhlilinin klassik üsullarından deyil, həm də belə bir proqnozun əsaslandığı asılılıqların xüsusi növünü göstərmədən etibarlı proqnozlar qurmağa imkan verən neyron şəbəkələri kimi üsullardan da istifadə olunur.

Çox vaxt data mining "statistika, süni intellekt (AI) metodları və verilənlər bazası təhlilinin qarışığı" kimi şərh olunur (Pregibon, 1997, s. 8) və son vaxtlara qədər o, tam hüquqlu bir maraq sahəsi kimi tanınmırdı. statistiklər üçün, hətta bəzən “statistikanın həyəti” də adlandırılır (Pregibon, 1997, s. 8). Lakin böyük praktik əhəmiyyətinə görə bu problem hazırda intensiv inkişaf etdirilir və böyük marağa səbəb olur (o cümlədən statistik aspektləri ilə) və bunda mühüm nəzəri nəticələr əldə edilmişdir.

Kəşfedici Məlumatların Təhlili (EDA)

Dəyişənlər arasında assosiasiyalar haqqında əvvəlki fərziyyələri yoxlamaq üçün nəzərdə tutulmuş ənənəvi fərziyyə testindən fərqli olaraq (məsələn, “Fərdin yaşı ilə onun riskdən çəkinməsi arasında müsbət korrelyasiya var”), Kəşfiyyat Məlumatlarının Təhlili (EDA) arasında assosiasiyaları tapmaq üçün istifadə olunur. bu əlaqələrin təbiəti haqqında apriori fikirlərin olmadığı (və ya qeyri-kafi) vəziyyətlərdə dəyişənlər. Bir qayda olaraq, kəşfiyyat xarakterli təhlil çoxlu sayda dəyişənləri nəzərdən keçirir və müqayisə edir və nümunələri tapmaq üçün müxtəlif üsullardan istifadə olunur.

Çoxdəyişənli kəşfiyyat analizi üsulları çoxdəyişənli verilənlərdə (və ya birdəyişənli məlumatların ardıcıllıqlarında) nümunələri tapmaq üçün xüsusi olaraq hazırlanmışdır. Bunlara daxildir: klaster analizi, faktor analizi, diskriminant funksiya analizi, çoxdəyişənli miqyaslama, log-xətti analiz, kanonik korrelyasiya, pilləli xətti və qeyri-xətti (məsələn, logit) reqressiya, uyğunluq təhlili, zaman sıralarının təhlili və təsnifat ağacları.

klaster analizi

Klaster analizi termini (ilk dəfə 1939-cu ildə Tryon tərəfindən təqdim edilmişdir) əslində müxtəlif təsnifat alqoritmləri toplusunu ehtiva edir. Bir çox sahələrdə tədqiqatçılar tərəfindən verilən ümumi sual, müşahidə olunan məlumatları vizual strukturlara necə təşkil etməkdir, yəni. taksonomiyaları genişləndirmək. Məsələn, bioloqlar heyvanlar arasındakı fərqləri mənalı şəkildə təsvir etmək üçün onları müxtəlif növlərə ayırmağı hədəfləyirlər. Biologiyada qəbul edilən müasir sistemə görə insan primatlar, məməlilər, amniotlar, onurğalılar və heyvanlara aiddir. Qeyd edək ki, bu təsnifatda aqreqasiya səviyyəsi nə qədər yüksəkdirsə, müvafiq sinif üzvləri arasında oxşarlıq da bir o qədər azdır. İnsan məməlilər ailəsinin "uzaq" üzvlərindən (yəni itlər) və s. ilə müqayisədə digər primatlar (yəni meymunlar) ilə daha çox oxşarlığa malikdir.

Klasterləşdirmə texnikası müxtəlif sahələrdə istifadə olunur. Hartigan (1975) klaster analizi üsulları ilə əldə edilən nəticələri ehtiva edən bir çox nəşr edilmiş tədqiqatların əla icmalı təqdim etmişdir. Məsələn, tibb sahəsində xəstəliklərin qruplaşdırılması, xəstəliklərin müalicəsi və ya xəstəliklərin simptomları geniş istifadə olunan taksonomiyalara gətirib çıxarır. Psixiatriya sahəsində paranoyya, şizofreniya və s. kimi simptom qruplarının düzgün diaqnozu uğurlu terapiya üçün çox vacibdir. Arxeologiyada klaster analizindən istifadə edərək tədqiqatçılar daş alətlərin, dəfn obyektlərinin və s. taksonomiyalarını yaratmağa çalışırlar. Marketinq tədqiqatlarında klaster analizinin geniş tətbiqi mövcuddur. Ümumiyyətlə, məlumatların "dağlarını" sonrakı emal üçün uyğun qruplara təsnif etmək lazım olduqda, klaster təhlili çox faydalı və təsirli olur.

Klaster analizinin ümumi üsulları:

    Birlik (ağac qruplaşması),

    ikitərəfli birlik

    K üsul deməkdir.

Əsas Komponentlər və Faktor Təhlili

Faktor təhlilinin əsas məqsədləri bunlardır:

    dəyişənlərin sayında azalma (məlumatların azalması)

    dəyişənlər arasında əlaqələrin strukturunun müəyyən edilməsi, yəni. dəyişənlərin təsnifatı.

Buna görə də faktor analizi ya məlumatların azaldılması metodu, ya da təsnifat metodu kimi istifadə olunur.

Faktor təhlili məlumatların azaldılması üsulu kimi

Tutaq ki, yüz adamın boyunu düym və santimetrlə ölçdüyünüz (bir qədər "axmaq") araşdırma aparırsınız. Beləliklə, iki dəyişən var. Məsələn, müxtəlif qida əlavələrinin boyuna təsirlərini daha da araşdırmaq istəyirsinizsə, hər iki dəyişəndən istifadə etməyə davam edərdinizmi? Yəqin ki, yox, çünki boy ölçü vahidlərindən asılı olmayaraq insanın bir xüsusiyyətidir.

İndi tutaq ki, siz insanların həyatdan məmnunluğunu ölçmək istəyirsiniz, bunun üçün müxtəlif maddələrdən ibarət anket tərtib edirsiniz; digər suallar arasında aşağıdakıları soruşursunuz: insanlar öz hobbilərindən razıdırlarmı (1-ci bənd) və bununla nə dərəcədə intensiv məşğul olurlar (2-ci bənd). Nəticələr elə çevrilir ki, orta cavablar (məsələn, məmnunluq üçün) 100 dəyərinə uyğundur, ortadan aşağı və yuxarı cavablar isə müvafiq olaraq daha aşağı və yüksək qiymətlərdir. İki dəyişən (iki fərqli maddəyə cavablar) bir-biri ilə korrelyasiya olunur.Bu iki dəyişənin yüksək korrelyasiyasından belə nəticəyə gəlmək olar ki, sorğunun iki maddəsi artıqdır.

Zaman sıralarının təhlili

Birincisi, biz zaman sıraları şəklində təqdim olunan məlumatların təhlili üsulları haqqında qısa məlumat verəcəyik, yəni. qeyri-təsadüfi vaxt nöqtələrində sifariş edilən ölçmələrin ardıcıllığı şəklində. Təsadüfi seçmə təhlilindən fərqli olaraq, zaman seriyası təhlili məlumat faylında ardıcıl dəyərlərin müntəzəm olaraq müşahidə edildiyi fərziyyəsinə əsaslanır (digər üsullarda isə müşahidələrin vaxtına əhəmiyyət vermirik və çox vaxt əhəmiyyət vermirik).

Zaman sıralarının təhlilinin iki əsas məqsədi var:

    silsilənin xarakterinin müəyyən edilməsi

    proqnozlaşdırma (indiki və keçmiş dəyərlər əsasında zaman seriyasının gələcək dəyərlərinin proqnozlaşdırılması).

Bu məqsədlərin hər ikisi seriya modelinin müəyyən edilməsini və az-çox formal şəkildə təsvir edilməsini tələb edir. Model müəyyən edildikdən sonra siz ondan sözügedən məlumatları şərh etmək üçün istifadə edə bilərsiniz (məsələn, iqtisadiyyat tələbəsiysinizsə, əmtəə qiymətlərində mövsümi dəyişiklikləri başa düşmək üçün onu nəzəriyyənizdə istifadə edin). Anlayışın dərinliyinə və nəzəriyyənin etibarlılığına məhəl qoymadan, sonra tapılmış model əsasında seriyanı ekstrapolyasiya edə bilərsiniz, yəni. gələcək dəyərlərini proqnozlaşdırmaq.

Əksər digər analiz növləri kimi, zaman sıralarının təhlili də verilənlərin sistematik komponenti (adətən bir neçə komponent daxil olmaqla) və təsadüfi səs-küyü (səhv) ehtiva etdiyini güman edir ki, bu da müntəzəm komponentləri aşkar etməyi çətinləşdirir. Əksər zaman sıralarının tədqiqat metodlarına müntəzəm komponenti daha aydın görməyə imkan verən müxtəlif səs-küy filtrləmə üsulları daxildir.

Zaman seriyasının müntəzəm komponentlərinin əksəriyyəti iki sinfə aiddir: onlar ya trend, ya da mövsümi komponentdir. Trend zamanla dəyişə bilən ümumi sistematik xətti və ya qeyri-xətti komponentdir. Mövsümi komponent vaxtaşırı təkrarlanan komponentdir. Bu növ müntəzəm komponentlərin hər ikisi çox vaxt seriyada eyni vaxtda mövcuddur. Məsələn, şirkətin satışları ildən-ilə arta bilər, lakin onlar həm də mövsümi komponenti ehtiva edir (adətən illik satışların 25%-i dekabrda, yalnız 4%-i avqustda baş verir).

MÜHAZİRƏ 8BİLİK SİSTEMLERİ. EXPERT SİSTEMLERİ.

Ekspert sistemlərinin təyin edilməsi

1980-ci illərin əvvəllərində süni intellekt tədqiqatlarında “ekspert sistemləri” (ES) adlanan müstəqil istiqamət formalaşdı. ES üzrə tədqiqatın məqsədi insan mütəxəssisi üçün çətin olan problemləri həll edərkən, keyfiyyət və səmərəlilik baxımından mütəxəssisin əldə etdiyi həllərdən aşağı olmayan nəticələr əldə edən proqramlar hazırlamaqdır. ES sahəsində tədqiqatçılar öz fənlərinin adı üçün tez-tez E. Feigenbaum tərəfindən təqdim edilən "bilik mühəndisliyi" terminindən də istifadə edirlər: "Süni intellekt sahəsindən tədqiqatın prinsip və alətlərini ekspert tələb edən çətin tətbiqi problemlərin həllinə gətirmək" bilik."

Ekspert sistemlərinin texnologiyasına və ya bilik mühəndisliyinə əsaslanan proqram vasitələri (PS) (biz gələcəkdə onlardan sinonim kimi istifadə edəcəyik) dünyada geniş yayılmışdır. Ekspert sistemlərinin əhəmiyyəti aşağıdakılardır:

ekspert sistemləri texnologiyası, həlli əhəmiyyətli iqtisadi effekt verən kompüterlərdə həll olunan praktiki əhəmiyyətli vəzifələrin dairəsini əhəmiyyətli dərəcədə genişləndirir;

ES texnologiyası ənənəvi proqramlaşdırmanın qlobal problemlərinin həllində ən mühüm vasitədir: mürəkkəb proqramların işlənib hazırlanmasının müddəti və nəticədə yüksək qiyməti;

mürəkkəb sistemlərin saxlanmasının yüksək qiyməti, bu da onların işlənməsinin dəyərini bir neçə dəfə üstələyir; proqramın təkrar istifadəsinin aşağı səviyyəsi və s.;

ES texnologiyasının ənənəvi proqramlaşdırma texnologiyası ilə birləşdirilməsi proqram məhsullarına yeni keyfiyyətlər əlavə edir: proqramların dinamik modifikasiyasının proqramçı tərəfindən deyil, istifadəçi tərəfindən təmin edilməsi; tətbiqin daha çox "şəffaflığı" (məsələn, bilik məhdud NL-də saxlanılır, bu, biliklərə şərh tələb etmir, təlim və texniki xidməti asanlaşdırır); daha yaxşı qrafika; interfeys və qarşılıqlı əlaqə.

Aparıcı ekspertlərin fikrincə, yaxın gələcəkdə ES aşağıdakı tətbiqləri tapacaq:

EC-lər dizayn, inkişaf, istehsal, paylama, satış, dəstək və xidmətin göstərilməsinin bütün mərhələlərində aparıcı rol oynayacaq;

Kommersiya paylanması almış ES texnologiyası, hazır ağıllı qarşılıqlı modullardan tətbiqlərin inteqrasiyasında inqilabi sıçrayış təmin edəcək.

ES sözdə rəsmiləşdirilməmiş vəzifələr üçün nəzərdə tutulmuşdur, yəni. AK-lər rəsmiləşdirilmiş problemlərin həllinə yönəlmiş proqramların hazırlanmasına ənənəvi yanaşmanı rədd etmir və ya əvəz etmir.

Rəsmiləşdirilməmiş tapşırıqlar adətən aşağıdakı xüsusiyyətlərə malikdir:

mənbə məlumatlarının yanlışlığı, qeyri-müəyyənliyi, natamamlığı və uyğunsuzluğu;

problem sahəsi və həll olunan problem haqqında biliklərin yanlışlığı, qeyri-müəyyənliyi, natamamlığı və uyğunsuzluğu;

həll sahəsinin böyük ölçüsü, yəni. həll axtarışı çox böyükdür;

dinamik dəyişən məlumat və biliklər.

Qeyd etmək lazımdır ki, qeyri-formal problemlər böyük və çox vacib problemlər sinfini təmsil edir. Bir çox ekspertlər hesab edir ki, bu problemlər kompüterlər tərəfindən həll edilən ən geniş yayılmış problemlər sinfidir.

Ekspert sistemləri və süni intellekt sistemləri verilənlərin emalı sistemlərindən onunla fərqlənir ki, onlar əsasən simvolik (rəqəmdən çox) təsvirdən, simvolik nəticə çıxarmaqdan və həllin evristik axtarışından (məlum alqoritmi yerinə yetirmək əvəzinə) istifadə edirlər.

Ekspert sistemləri yalnız çətin praktiki (oyuncaq deyil) məsələləri həll etmək üçün istifadə olunur. Həllin keyfiyyəti və səmərəliliyi baxımından ekspert sistemləri insan ekspertin həllərindən geri qalmır. Ekspert sistem həlləri "şəffaflığa" malikdir, yəni. istifadəçiyə keyfiyyət səviyyəsində izah edilə bilər. Ekspert sistemlərinin bu keyfiyyəti onların öz bilikləri və nəticələri barədə düşünmə qabiliyyəti ilə təmin edilir. Ekspert sistemləri ekspertlə qarşılıqlı əlaqə zamanı öz biliklərini artıra bilir. Qeyd etmək lazımdır ki, hazırda ekspert sistemlərinin texnologiyası müxtəlif növ problemlərin (şərh, proqnozlaşdırma, diaqnostika, planlaşdırma, layihələndirmə, nəzarət, sazlama, təlimat, idarəetmə) həlli üçün geniş spektrli problem sahələrində, məsələn, maliyyə sahəsində istifadə olunur. , neft və qaz sənayesi , energetika, nəqliyyat, əczaçılıq istehsalı, kosmik, metallurgiya, mədənçıxarma, kimya, təhsil, sellüloz-kağız sənayesi, telekommunikasiya və rabitə və s.

Süni intellekt sistemlərini (AI) inkişaf etdirən firmalara kommersiya uğurları dərhal gəlmədi. 1960-1985-ci illərdə. Süni intellektdə irəliləyişlər əsasən AGI-nin praktik istifadə üçün uyğunluğunu nümayiş etdirən tədqiqat işlərində olmuşdur. Təxminən 1985-ci ildən başlayaraq (kütləvi miqyasda 1988-1990-cı illərdə) ilk növbədə ES və son illərdə təbii dili qəbul edən sistemlər (NL-sistemləri) və neyron şəbəkələri (NN) kommersiya tətbiqlərində fəal şəkildə istifadə olunmağa başladı.

Qeyd etmək lazımdır ki, bəzi mütəxəssislər (bir qayda olaraq, AI-də deyil, proqramlaşdırma üzrə mütəxəssislər) ES və AIS-in gözləntilərini doğrultmadı və öldüklərini mübahisə etməyə davam edirlər. Bu cür yanlış fikirlərin səbəbləri ondan ibarətdir ki, bu müəlliflər ES-ni ənənəvi proqramlaşdırmaya alternativ hesab edirlər, yəni. ES-nin təkbaşına (digər proqram vasitələrindən ayrı) müştərinin qarşısında duran vəzifələri tamamilə həll etməsindən irəli gəlirdilər. Qeyd etmək lazımdır ki, ES-nin yaranmasının başlanğıcında onlarda istifadə olunan dillərin xüsusiyyətləri, proqramların işlənib hazırlanması texnologiyası və istifadə olunan avadanlıqlar (məsələn, Lisp-maşınları) belə güman etməyə əsas verirdi ki, onların inteqrasiyası. Ənənəvi proqram sistemləri ilə ES real proqramlar tərəfindən qoyulan məhdudiyyətlər altında mürəkkəb və bəlkə də qeyri-mümkün bir işdir. Bununla belə, hazırda ES yaratmaq üçün kommersiya alətləri (İS) ənənəvi proqramlaşdırmanın müasir texnoloji tendensiyalarına tam uyğun olaraq hazırlanır ki, bu da inteqrasiya olunmuş proqramların yaradılması zamanı yaranan problemləri aradan qaldırır.

AIS-i kommersiya uğuruna aparan səbəblər aşağıdakılardır.

İnteqrasiya.Başqa informasiya texnologiyaları və alətləri ilə (CASE, DBMS, kontrollerlər, məlumat konsentratorları və s. ilə) asanlıqla inteqrasiya olunan süni intellekt alətləri (AI IS) hazırlanmışdır.

Açıqlıq və daşınma. AI IC-lər açıqlığı və daşınma qabiliyyətini təmin edən standartlara uyğun hazırlanmışdır.

Ənənəvi proqramlaşdırma dillərindən və iş stansiyalarından istifadə Süni intellekt dillərində (Lisp, Prolog və s.) həyata keçirilən AI IS-dən ənənəvi proqramlaşdırma dillərində (C, C++ və s.) həyata keçirilən AI IS-ə keçid var. təminat inteqrasiyasını sadələşdirdi, AI tətbiqlərinin kompüter sürəti və həcmi üçün tələblərini azaldıb təsadüfi giriş yaddaşı. İş stansiyalarının istifadəsi (fərdi kompüterlər əvəzinə) AI IC-lərdən istifadə edən kompüterlərdə yerinə yetirilə bilən proqramların çeşidini kəskin şəkildə artırdı.

Müştəri-server arxitekturası. Müştəri-server arxitekturasında paylanmış hesablamaları dəstəkləyən AI IS-lər hazırlanmışdır ki, bu da aşağıdakıları etməyə imkan verdi: tətbiqlərdə istifadə olunan avadanlığın dəyərini azaltmaq, tətbiqləri qeyri-mərkəzləşdirmək, etibarlılığı və ümumi performansı artırmaq (kompüterlər arasında göndərilən məlumatın miqdarı azaldığından) və hər bir proqram modulu adekvat avadanlığında icra olunur).

Problem/domen yönümlü AI IS.Ümumi təyinatlı AI IS-nin inkişafından (baxmayaraq ki, onlar diqqət mərkəzində olan İS yaratmaq üçün bir vasitə kimi əhəmiyyətini itirməmişdir) problem/domen yönümlü AI IS-ə keçid aşağıdakıları təmin edir: tətbiqi inkişaf etdirmə vaxtının azaldılması. ; İP-dən istifadənin səmərəliliyinin artırılması; ekspert işinin sadələşdirilməsi və sürətləndirilməsi; informasiyanın və proqram təminatının təkrar istifadəsi (obyektlər, siniflər, qaydalar, prosedurlar).

Ekspert sistemlərinin strukturu

Tipik statik ES aşağıdakı əsas komponentlərdən ibarətdir:

həlledici (tərcüməçi);

verilənlər bazası (DB) də adlandırılan iş yaddaşı (RP);

bilik bazaları (KB);

biliklərin mənimsənilməsinin komponentləri;

izahedici komponent;

dialoq komponenti.

Verilənlər bazası (işçi yaddaş) cari anda həll olunan problemin ilkin və aralıq məlumatlarını saxlamaq üçün nəzərdə tutulmuşdur. Bu termin ad baxımından üst-üstə düşür, lakin sistemdə saxlanılan bütün məlumatlara (əsasən uzunmüddətli) istinad etmək üçün informasiya axtarış sistemlərində (IPS) və verilənlər bazası idarəetmə sistemlərində (DBMS) istifadə edilən terminlə məna baxımından üst-üstə düşür.

ES-də bilik bazası (KB) nəzərdən keçirilən sahəni (cari məlumatlardan çox) təsvir edən uzunmüddətli məlumatları və bu sahədə məlumatların müvafiq çevrilmələrini təsvir edən qaydaları saxlamaq üçün nəzərdə tutulmuşdur.

Həlledici işçi yaddaşdan ilkin verilənlərdən və biliklər bazasından istifadə edərək, ilkin verilənlərə tətbiq edildikdə məsələnin həllinə səbəb olan qaydalar ardıcıllığını formalaşdırır.

Biliyin əldə edilməsi komponenti ekspert istifadəçi tərəfindən həyata keçirilən ES-nin biliklərlə doldurulması prosesini avtomatlaşdırır.

İzahat komponenti sistemin problemin həllini necə əldə etdiyini (və ya niyə həllini əldə etmədiyini) və bunun üçün hansı bilikdən istifadə etdiyini izah edir ki, bu da ekspertin sistemi sınaqdan keçirməsini asanlaşdırır və istifadəçinin problemin həllinə inamını artırır. nəticə.

Dialoq komponenti həm problemlərin həlli zamanı, həm də biliklərin əldə edilməsi və işin nəticələrinin izahı prosesində istifadəçi ilə mehriban ünsiyyətin təşkilinə yönəlmişdir.

ES-nin hazırlanmasında aşağıdakı ixtisasların nümayəndələri iştirak edirlər:

vəzifələri ES tərəfindən həll ediləcək problem sahəsində mütəxəssis;

bilik mühəndisi - ES-nin inkişafı üzrə mütəxəssis (onun istifadə etdiyi texnologiya, metodlar bilik mühəndisliyinin texnologiyası (metodları) adlanır);

ES-nin inkişafını sürətləndirmək üçün nəzərdə tutulmuş alətlərin (İS) inkişafı üçün proqramçı.

Qeyd etmək lazımdır ki, inkişaf iştirakçıları arasında bilik mühəndislərinin olmaması (yəni, onların proqramçılar tərəfindən dəyişdirilməsi) ES-nin yaradılması prosesində ya uğursuzluğa səbəb olur, ya da onu əhəmiyyətli dərəcədə uzadır.

Ekspert problem sahəsini xarakterizə edən bilikləri (məlumat və qaydaları) müəyyən edir, ES-yə daxil edilmiş biliklərin tamlığını və düzgünlüyünü təmin edir.

Bilik mühəndisi ekspertə ES-nin işləməsi üçün zəruri olan bilikləri müəyyən etmək və strukturlaşdırmaqda kömək edir; verilmiş problem sahəsi üçün ən uyğun olan İS-ni seçir və bu İS-də biliyin təmsil olunması üsulunu müəyyən edir; ekspertin təqdim etdiyi qaydalarda istifadə olunacaq standart funksiyaları (müəyyən problem sahəsi üçün tipik) seçir və proqramlaşdırır (ənənəvi vasitələrlə).

Proqramçı limitdə ES-nin bütün əsas komponentlərini özündə cəmləşdirən İS-i (Əgər İS yenidən işlənib hazırlanırsa) işləyib hazırlayır və onu istifadə olunacağı mühitlə əlaqələndirir.

Ekspert sistemi iki rejimdə işləyir: biliklərin əldə edilməsi rejimi və problemin həlli rejimi (konsultasiya rejimi və ya ES-dən istifadə rejimi də adlanır).

Bilik əldə etmə rejimində ES ilə əlaqə (bilik mühəndisinin vasitəçiliyi ilə) ekspert tərəfindən həyata keçirilir. Bu rejimdə ekspert biliklərin əldə edilməsi komponentindən istifadə edərək sistemi həll rejimində olan ES-yə problem sahəsindən problemləri müstəqil (ekspertsiz) həll etməyə imkan verən biliklərlə doldurur. Ekspert problem sahəsini məlumat və qaydalar toplusu kimi təsvir edir. Məlumatlar ekspertiza sahəsində mövcud olan obyektləri, onların xüsusiyyətlərini və mənalarını müəyyən edir. Qaydalar sözügedən domenə xas olan verilənlərin manipulyasiya olunma yollarını müəyyən edir.

Qeyd edək ki, proqramın hazırlanmasına ənənəvi yanaşmada biliklərin əldə edilməsi rejimi proqramçı tərəfindən həyata keçirilən alqoritmləşdirmə, proqramlaşdırma və sazlama mərhələlərinə uyğundur. Beləliklə, ənənəvi yanaşmadan fərqli olaraq, ES-də proqramların işlənməsi proqramçı tərəfindən deyil, proqramlaşdırmanı bilməyən ekspert (ES-in köməyi ilə) tərəfindən həyata keçirilir.

Məsləhətləşmə rejimində ES ilə əlaqə nəticə və (və ya) onu əldə etmə üsulu ilə maraqlanan son istifadəçi tərəfindən həyata keçirilir. Qeyd edək ki, ES-nin məqsədindən asılı olaraq istifadəçi bu problem sahəsində mütəxəssis olmaya bilər (bu zaman o, nəticəni özü əldə edə bilməyərək ES-ə müraciət edir) və ya mütəxəssis (bu halda istifadəçi nəticəni özü əldə edə bilər, lakin o, ya nəticənin əldə edilməsi prosesini sürətləndirmək, ya da ES-yə gündəlik işləri həvalə etmək məqsədi ilə ES-yə müraciət edir). Məsləhət rejimində istifadəçinin tapşırığı haqqında məlumatlar dialoq komponenti tərəfindən işləndikdən sonra işçi yaddaşa daxil olur. Həlledici işçi yaddaşdan daxil olan məlumatlara, problem sahəsi haqqında ümumi məlumatlara və biliklər bazasından qaydalara əsaslanaraq problemin həllini formalaşdırır. Problemi həll edərkən ES nəinki müəyyən edilmiş əməliyyatlar ardıcıllığını yerinə yetirir, həm də onu ilkin olaraq formalaşdırır. Sistemin reaksiyası istifadəçi üçün aydın deyilsə, o, izahat tələb edə bilər:

“Sistem niyə bu və ya digər sual verir?”, “sistem tərəfindən toplanan cavab necə alınıb?”.

Bu tipli statik ES.ES-in strukturu problemin həlli zamanı ətraf aləmdə baş verən dəyişikliklərə məhəl qoymamaq mümkün olan proqramlarda istifadə olunur. Praktik istifadə edilən ilk ES statik idi.

Statik ES ilə müqayisədə dinamik ES-nin arxitekturasına iki komponent daxil edilir: xarici aləmin modelləşdirilməsi üçün alt sistem və xarici mühitlə əlaqə üçün alt sistem. Sonuncu sensorlar və nəzarətçilər sistemi vasitəsilə xarici dünya ilə əlaqə saxlayır. Bundan əlavə, statik ES-nin ənənəvi komponentləri (bilik bazası və nəticə çıxarma mühərriki) real dünyada baş verən hadisələrin müvəqqəti məntiqini əks etdirmək üçün əhəmiyyətli dəyişikliklərə məruz qalır.

Biz vurğulayırıq ki, ES-nin strukturu yalnız komponentləri (funksiyaları) əks etdirir və çox şey "pərdə arxasında" qalır. Əncirdə. 1.3 dinamik ES yaratmaq üçün müasir İS-in ümumiləşdirilmiş strukturunu göstərir ki, bu da əsas komponentlərə əlavə olaraq müasir proqramlaşdırma texnologiyasına uyğun olaraq inteqrasiya edilmiş proqramlar yaratmağa imkan verən xüsusiyyətləri ehtiva edir.

Ekspert sistemlərinin inkişaf mərhələləri

ES-nin inkişafı adi proqram məhsulunun hazırlanmasından əhəmiyyətli fərqlərə malikdir. ES-nin yaradılması təcrübəsi göstərdi ki, ənənəvi proqramlaşdırmada qəbul edilmiş metodologiyadan onların işlənib hazırlanması zamanı istifadə edilməsi ES-nin yaradılması prosesini ya həddindən artıq ləngidir, ya da hətta mənfi nəticəyə gətirib çıxarır.

ES-dən yalnız ES-nin inkişafı mümkün olduqda, əsaslandırıldıqda və bilik mühəndisliyi metodları həll olunan problemə uyğun olduqda istifadə edilməlidir. Müəyyən bir tətbiq üçün ES-nin hazırlanmasının mümkün olması üçün ən azı aşağıdakı tələblər eyni vaxtda yerinə yetirilməlidir:

1) problemi yeni başlayanlardan daha yaxşı həll edən bu sahədə mütəxəssislər var;

2) ekspertlər təklif olunan həll yolunun qiymətləndirilməsi ilə razılaşırlar, əks halda işlənmiş ES-nin keyfiyyətini qiymətləndirmək mümkün olmayacaq;

3) ekspertlər şifahi ifadə (təbii dildə ifadə) və istifadə etdikləri üsulları izah edə bilirlər, əks halda ekspertlərin biliyinin “çıxarılacağını” və ES-yə investisiya qoyulacağını gözləmək çətindir;

4) problemin həlli üçün hərəkət yox, yalnız əsaslandırma tələb olunur;

5) tapşırıq çox çətin olmamalıdır (yəni, onun həlli ekspertə həftələr deyil, bir neçə saat və ya gün çəkməlidir);

6) tapşırıq formal formada ifadə edilməməli olsa da, yenə də kifayət qədər "anlaşılan" və strukturlaşdırılmış sahəyə aid olmalıdır, yəni. problemin həllinin əsas anlayışları, əlaqələri və məlum (ən azı ekspertə) yolları vurğulanmalıdır;

7) problemin həlli "sağlam düşüncə"dən (yəni, hər hansı normal insanın bildiyi və istifadə edə biləcəyi dünya və onun fəaliyyət tərzi haqqında geniş spektrli ümumi məlumatlardan) istifadə etməməlidir, çünki belə biliklər hələ mümkün olmayıb. (kifayət qədər) süni intellekt sistemlərinə investisiya etmək.

Bu proqramda ES-nin istifadəsi mümkün ola bilər, lakin əsaslandırılmır. ES-nin istifadəsi aşağıdakı amillərdən biri ilə əsaslandırıla bilər:

problemin həlli əhəmiyyətli effekt verəcək, məsələn, iqtisadi;

insan ekspertdən istifadə ya ekspertlərin sayının kifayət qədər olmaması, ya da ekspertizanın müxtəlif yerlərdə eyni vaxtda aparılması zərurəti ilə əlaqədar mümkün olmur;

məlumatın ekspertə ötürülməsi yolverilməz vaxt və ya məlumat itkisi ilə nəticələndiyi hallarda ES-dən istifadə məqsədəuyğundur;

İnsanlara düşmən olan mühitdə problemi həll etmək üçün zəruri hallarda ES-dən istifadə məqsədəuyğundur.

Həll ediləcək problem aşağıdakı xüsusiyyətlərin birləşməsinə malikdirsə, tətbiq ES metodlarına uyğundur:

1) problem riyazi metodlarda və ənənəvi proqramlaşdırmada adət olduğu kimi rəqəmlərin manipulyasiyası ilə deyil, simvolların manipulyasiyası (yəni simvolik əsaslandırmadan istifadə etməklə) ilə təbii şəkildə həll edilə bilər;

2) tapşırıq alqoritmik deyil, evristik xarakterə malik olmalıdır, yəni. onun həlli evristik qaydaların tətbiqini tələb etməlidir. Bəzi formal prosedurların köməyi ilə həllinə zəmanət verilə bilən (verilmiş məhdudiyyətlərə uyğun) vəzifələr ES-nin istifadəsi üçün uyğun deyil;

3) tapşırıq ES-nin hazırlanması xərclərini əsaslandırmaq üçün kifayət qədər mürəkkəb olmalıdır. Bununla belə, o, həddən artıq mürəkkəb olmamalıdır (həll etmək həftələr deyil, ekspert saatları tələb edir) ki, ES onu həll edə bilsin;

4) tapşırıq ES metodları ilə həll edilə biləcək qədər dar və praktiki əhəmiyyətli olmalıdır.

ES-ni inkişaf etdirərkən, bir qayda olaraq, "sürətli prototip" anlayışından istifadə olunur. Bu konsepsiyanın mahiyyəti ondan ibarətdir ki, tərtibatçılar son məhsulu dərhal qurmağa çalışmırlar. İlkin mərhələdə onlar ES-nin prototipini (prototiplərini) yaradırlar. Prototiplər iki ziddiyyətli tələblərə cavab verməlidir: bir tərəfdən, onlar müəyyən bir tətbiqin tipik problemlərini həll etməlidirlər, digər tərəfdən, onların işlənməsinin vaxtı və zəhməti çox kiçik olmalıdır ki, biliklərin toplanması və sazlanması prosesi (daşınan) ekspert tərəfindən həyata keçirilir) seçim prosesi ilə maksimum paralel ola bilər.proqram təminatının (işlənməsi) (bilik mühəndisi və proqramçı tərəfindən həyata keçirilir). Bu tələblərə cavab vermək üçün, bir qayda olaraq, prototip yaratarkən, dizayn prosesini sürətləndirmək üçün müxtəlif vasitələrdən istifadə olunur.

Prototip bilik mühəndisliyi üsullarının tətbiq üçün uyğunluğunu nümayiş etdirməlidir. Müvəffəqiyyətli olarsa, ekspert bilik mühəndisinin köməyi ilə problem sahəsi haqqında prototipin biliklərini genişləndirir. Uğursuzluq yeni prototipin hazırlanmasını tələb edə bilər və ya tərtibatçılar ES metodlarının verilmiş tətbiq üçün uyğun olmadığı qənaətinə gələ bilərlər. Bilik artdıqca, prototip müəyyən bir tətbiqin bütün problemlərini uğurla həll edəcək bir nöqtəyə çata bilər. ES prototipinin son məhsula çevrilməsi adətən ES-nin aşağı səviyyəli dillərdə yenidən proqramlaşdırılmasına gətirib çıxarır ki, bu da həm ES sürətinin artırılmasını, həm də tələb olunan yaddaşın azalmasını təmin edir. ES-nin yaradılmasının mürəkkəbliyi və vaxtı əsasən istifadə olunan alətlərin növündən asılıdır.

ES-nin yaradılması üzrə iş zamanı onların inkişafı üçün müəyyən bir texnologiya hazırlanmışdır, o cümlədən aşağıdakı altı mərhələ:

identifikasiya, konseptuallaşdırma, rəsmiləşdirmə, icra, sınaq, sınaq əməliyyatı. İdentifikasiya mərhələsində həll ediləcək vəzifələr müəyyən edilir, inkişaf məqsədləri müəyyən edilir, ekspertlər və istifadəçilərin növləri müəyyən edilir.

Konseptuallaşdırma mərhələsində problem sahəsinin mənalı təhlili aparılır, istifadə olunan anlayışlar və onların əlaqələri müəyyən edilir, problemlərin həlli üsulları müəyyən edilir.

Formallaşdırma mərhələsində İS-lər seçilir və bütün bilik növlərini təmsil etmə yolları müəyyən edilir, əsas anlayışlar rəsmiləşdirilir, biliyin şərh üsulları müəyyən edilir, sistemin fəaliyyəti modelləşdirilir, sabit biliklər sisteminin məqsədlərinin adekvatlığı müəyyən edilir. anlayışlar, qərar vermə üsulları, biliklərin təmsil və manipulyasiya vasitələri qiymətləndirilir.

İcra mərhələsində ekspert bilik bazasını doldurur. ES-nin əsasını bilik təşkil etdiyinə görə, bu mərhələ ES-nin inkişafının ən vacib və ən çox vaxt aparan mərhələsidir. Biliyin əldə edilməsi prosesi ekspertdən biliyin çıxarılmasına, sistemin səmərəli işləməsini təmin edən biliklərin təşkilinə və biliklərin ES üçün başa düşülən formada təqdim edilməsinə bölünür. Biliklərin əldə edilməsi prosesi real problemlərin həllində mütəxəssisin fəaliyyətinin təhlili əsasında bilik mühəndisi tərəfindən həyata keçirilir.

Son istifadəçi interfeysi

G2 sistemi tərtibatçıya animasiya elementləri ilə sadə, aydın və ifadəli qrafik istifadəçi interfeysi yaratmaq üçün zəngin imkanlar təqdim edir. Təklif olunan alətlər dəsti müxtəlif abstraksiya və təfərrüat səviyyələrində demək olar ki, qeyri-məhdud mürəkkəblikdə olan texnoloji prosesləri əyani şəkildə göstərməyə imkan verir. Bundan əlavə, tətbiq obyektləri arasında əlaqələrin qrafik təsviri biliklərin təsviri dilinin deklarativ konstruksiyalarında birbaşa istifadə edilə bilər.

RTworks-in idarə olunan prosesin cari vəziyyətini göstərmək üçün yerli vasitələri yoxdur. Proqram tərtibatçısı VI Korporasiyasının Dataview sistemindən istifadə etməyə məcbur olur ki, bu da onun imkanlarını xeyli məhdudlaşdırır.

TDC Expert-in istifadəçi interfeysi TDC 3000 sisteminin imkanları ilə məhdudlaşır, yəni. son istifadəçinin qarşılıqlı əlaqəsi

mətn rejimi ilə məhdudlaşır.

Ekspert sistemlərində biliklərin təmsil olunması

Bilik təqdim edərkən həll edilməli olan birinci və əsas məsələ biliyin tərkibinin müəyyən edilməsi məsələsidir, yəni. ekspert sistemində "NƏ TƏMSİL EDİLMƏLİYİ" müəyyənləşdirmək. İkinci sual "NECƏ TƏMSİL ETMƏK" biliyə aiddir. Qeyd etmək lazımdır ki, bu iki məsələ müstəqil deyil. Həqiqətən də, seçilmiş təqdimat üsulu prinsipcə uyğun olmaya və ya bəzi bilikləri ifadə etmək üçün səmərəsiz ola bilər.

Fikrimizcə, “NECƏ TƏMSİL ETMƏK” sualını əsasən iki müstəqil vəzifəyə bölmək olar: biliyin necə təşkili (strukturlaşdırılması) və biliyin seçilmiş formalizmdə necə təmsil olunması.

Biliyin təşkilini müstəqil bir vəzifəyə bölmək istəyi, xüsusən də bu vəzifənin hər hansı bir təmsil dili üçün ortaya çıxması və istifadə olunan formalizmdən asılı olmayaraq bu vəzifənin həlli üsullarının eyni (və ya oxşar) olması ilə əlaqədardır.

Beləliklə, bilikləri təqdim edərkən həll edilməli olan məsələlərə aşağıdakıları daxil edəcəyik:

təmsil olunan biliyin tərkibinin müəyyən edilməsi;

biliyin təşkili;

biliyin təmsili, yəni. model tərifinə baxın. ES biliklərinin tərkibi aşağıdakı amillərlə müəyyən edilir:

problemli mühit;

ekspert sisteminin arxitekturası;

istifadəçi ehtiyacları və məqsədləri;

ünsiyyət dili.

Uyğun olaraq ümumi sxem Statik ekspert sisteminin işləməsi üçün aşağıdakı biliklər tələb olunur:

tərcüməçinin (həlledicinin) istifadə etdiyi problemin həlli prosesi (yəni nəzarət bilikləri) haqqında biliklər;

linqvistik prosessorun istifadə etdiyi ünsiyyət dili və dialoqun təşkili yolları haqqında biliklər (dialoq komponenti);

biliyin mənimsənilməsi komponenti tərəfindən istifadə edilən biliyi təmsil etmək və dəyişdirmək yolları haqqında biliklər;

izahedici komponent tərəfindən istifadə edilən dəstəkləyici struktur və nəzarət bilikləri.

Dinamik ES üçün əlavə olaraq aşağıdakı biliklər tələb olunur:

1) xarici mühitlə qarşılıqlı əlaqə üsulları haqqında biliklər;

2) xarici dünyanın modeli haqqında biliklər.

Bilik tərkibinin istifadəçinin tələblərindən asılılığı aşağıdakılarda özünü göstərir:

hansı vəzifələrdən ( ümumi dəst tapşırıqlar) və istifadəçinin hansı məlumatlarla həll etmək istədiyi;

həll yolları və üsulları hansılardır;

nəticələrin sayına və onların əldə edilməsi üsullarına hansı məhdudiyyətlər altında problem həll edilməlidir;

ünsiyyət dili və dialoqun təşkili üçün hansı tələblər var;

istifadəçi üçün mövcud olan problem sahəsi haqqında biliklərin ümumilik (spesifiklik) dərəcəsi nədir;

istifadəçilərin məqsədləri nədir.

Ünsiyyət dili haqqında biliklərin tərkibi həm ünsiyyət dilindən, həm də lazımi anlaşma səviyyəsindən asılıdır.

Ekspert sisteminin arxitekturasını nəzərə alaraq, biliklər şərh edilə bilən və şərh edilə bilənlərə bölünməlidir. Birinci növə həlledicinin (tərcüməçinin) şərh edə bildiyi biliklər daxildir. Bütün digər biliklər ikinci növə aiddir. Həll edən onların quruluşunu və məzmununu bilmir. Əgər bu bilik sistemin hər hansı komponenti tərəfindən istifadə olunursa, o, bu bilikdən “xəbərdar” deyildir. Şərh edilməmiş biliklər ünsiyyət dilinin lüğəti və qrammatikası haqqında məlumatları, dialoqun strukturu haqqında məlumatı və dəstəkləyici bilikləri saxlayan köməkçi biliklərə bölünür. Köməkçi biliklər təbii dil komponenti tərəfindən işlənir, lakin həlledici bu emalın gedişatını dərk etmir, çünki giriş mesajlarının emalının bu mərhələsi imtahan üçün köməkçidir. Sistemin yaradılmasında və izahatların həyata keçirilməsində köməkçi biliklərdən istifadə olunur. Dəstəkləyici bilik həm şərh olunan biliklərin, həm də sistem hərəkətlərinin təsviri (əsaslandırılması) rolunu oynayır. Yardımçı biliklər texnoloji və semantik bölünür. Texnoloji dəstəkləyici biliklər onların təsvir etdikləri biliyin yaranma vaxtı, biliyin müəllifi haqqında və s. Semantik dəstəkləyici biliklər bu biliyin semantik təsvirini ehtiva edir. Onlar biliyin tətbiqi səbəbləri, biliyin məqsədi haqqında məlumatları ehtiva edir, biliyin istifadə üsulunu və əldə edilən effekti təsvir edir. Dəstəkləyici bilik təsviridir.

Şərh edilmiş bilikləri təmsilçilik haqqında biliyə nəzarət edən fənn biliyinə bölmək olar.Təmsil haqqında biliklər şərh olunan biliyin sistemdə necə (hansı strukturlarda) təqdim edilməsi haqqında məlumatları ehtiva edir.

Mövzu bilikləri mövzu sahəsi haqqında məlumatları və vəzifələrin həllində bu məlumatları dəyişdirmək yollarını ehtiva edir. Qeyd edək ki, fənn biliyinə münasibətdə təmsilçilik haqqında biliklər və nəzarət haqqında biliklər metabiliklərdir.Fənn biliklərində deskriptorlar və müvafiq fənn bilikləri fərqləndirilə bilər. Deskriptorlarda qaydalar və məlumatların müəyyənlik faktoru, vaciblik və mürəkkəblik ölçüləri kimi mövzu bilikləri haqqında xüsusi məlumatlar var. Əslində mövzu bilikləri faktlara və icra edilə bilən ifadələrə bölünür. Faktlar obyektlərin mümkün dəyərlərini və mövzu sahəsinin xüsusiyyətlərini müəyyənləşdirir. İcra edilə bilən ifadələr problemlərin həlli zamanı mövzu sahəsinin təsvirini necə dəyişdirə biləcəyiniz haqqında məlumatları ehtiva edir. Başqa sözlə, icra edilə bilən ifadələr emal prosedurlarını müəyyən edən biliklərdir. Bununla belə, biz “prosessual bilik” ifadəsini işlətməkdən qaçırıq, çünki vurğulamaq istəyirik ki, bu biliklər təkcə prosessual deyil, həm də deklarativ formada konkretləşdirilə bilər.

Nəzarət biliyi diqqəti cəmləyən və həlledici olana bölünə bilər. Biliyin fokuslanması müəyyən bir vəziyyətdə hansı bilikdən istifadə edilməli olduğunu təsvir edir. Bir qayda olaraq, biliklərin fokuslanması müvafiq fərziyyələri sınaqdan keçirərkən istifadə edilməli olan ən perspektivli obyektlər və ya qaydalar haqqında məlumatları ehtiva edir. Birinci halda diqqət iş yaddaşının elementlərinə, ikincidə isə bilik bazasının qaydalarına yönəldilir. Həlledici bilik mövcud vəziyyətə uyğun biliyin necə şərh edilməsini seçmək üçün istifadə olunan məlumatları ehtiva edir. Bu bilik müəyyən bir problemin həlli üçün ən təsirli olan strategiyaları və ya evristikanı seçmək üçün istifadə olunur.

Ekspert sisteminin keyfiyyət və kəmiyyət göstəriciləri metabilikdən istifadə etməklə əhəmiyyətli dərəcədə yaxşılaşdırıla bilər, yəni. bilik haqqında bilik. Metakknowledge tək bir varlığı təmsil etmir, ondan müxtəlif məqsədlərə çatmaq üçün istifadə edilə bilər. Meta biliyin mümkün məqsədlərini sadalayırıq:

1) strateji meta-qaydalar şəklində meta-bilik müvafiq qaydaları seçmək üçün istifadə olunur;

2) meta-bilik ekspertiza sahəsindən qaydaların tətbiqinin məqsədəuyğunluğunu əsaslandırmaq üçün istifadə olunur;

3) predmet qaydalarında sintaktik və semantik səhvləri aşkar etmək üçün metarullardan istifadə edilir;

4) meta-qaydalar subyekt qaydalarını və funksiyalarını yenidən qurmaqla sistemin ətraf mühitə uyğunlaşmasına imkan verir;

5) metarullar sistemin imkanlarını və məhdudiyyətlərini açıq şəkildə göstərməyə imkan verir, yəni. sistemin nəyi bildiyini və nəyi bilmədiyini müəyyənləşdirin.

İstənilən təqdimatda biliyin təşkili məsələlərinə baxılmalıdır və onların həlli əsasən seçilmiş təqdimetmə üsulundan (modelindən) asılı deyildir. Biliyin təşkili probleminin aşağıdakı aspektlərini ayırırıq:

biliyin təqdimat səviyyələri və təfərrüat səviyyələri üzrə təşkili;

iş yaddaşında biliyin təşkili;

bilik bazasında biliyin təşkili.

Təmsil tənlikləri və təfərrüat səviyyələri

Ekspert sisteminin həll yolunun tapılması prosesini idarə edə bilməsi, yeni biliklər əldə edə bilməsi və öz hərəkətlərini izah edə bilməsi üçün o, təkcə öz biliklərindən istifadə etməyi deyil, həm də onu başa düşmək və anlamaq qabiliyyətinə malik olmalıdır. onları araşdırın, yəni. ekspert sistemi problem mühiti haqqında biliklərinin necə təmsil olunduğuna dair biliyə malik olmalıdır. Problemli mühit haqqında biliklərə təmsilin sıfır səviyyəsinin biliyi deyilirsə, onda birinci təmsilçilik səviyyəsi metabiliyi ehtiva edir, yəni. sıfır səviyyəli bilik sisteminin daxili aləmdə necə təmsil olunduğu haqqında biliklər. Birinci səviyyə sıfır səviyyəli biliyi təmsil etmək üçün hansı vasitələrdən istifadə olunduğu haqqında bilikləri ehtiva edir. Birinci səviyyənin biliyi qərar vermə prosesinin idarə edilməsində, sistemin hərəkətlərinin əldə edilməsində və izahında mühüm rol oynayır. Birinci səviyyəli biliyin sıfır səviyyəli biliyə keçidləri olmadığına görə birinci səviyyə bilikləri problem mühitindən müstəqildir.

Təqdimat səviyyələrinin sayı ikidən çox ola bilər. İkinci səviyyəli təmsilçilik birinci səviyyənin bilikləri haqqında məlumatları ehtiva edir, yəni. birinci səviyyənin əsas anlayışlarının təmsili haqqında biliklər. Biliyin təqdimat səviyyələrinə bölünməsi sistemin əhatə dairəsinin genişlənməsini təmin edir.

Təfərrüat səviyyələrinin vurğulanması müxtəlif təfərrüat dərəcələri ilə biliyi nəzərdən keçirməyə imkan verir. Təfərrüat səviyyələrinin sayı əsasən həll olunan vəzifələrin xüsusiyyətləri, biliklərin miqdarı və onların təqdim edilmə üsulu ilə müəyyən edilir. Bir qayda olaraq, biliyin ümumi, məntiqi və fiziki təşkilini əks etdirən ən azı üç təfərrüat səviyyəsi fərqləndirilir. Çoxsaylı təfərrüat səviyyələrinin tətbiqi sistemin əlavə çeviklik dərəcəsini təmin edir, çünki bu, başqalarına təsir etmədən bir səviyyədə dəyişikliklər etməyə imkan verir. Bir detal səviyyəsində dəyişikliklər həmin səviyyədə əlavə dəyişikliklərlə nəticələnə bilər ki, bu da məlumat strukturları və proqramlar arasında ardıcıllığı təmin etmək üçün zəruridir. Lakin müxtəlif səviyyələrin olması dəyişikliklərin bir səviyyədən digərlərinə yayılmasının qarşısını alır.

İşləyən sistemdə biliyin təşkili

Ekspert sistemlərinin iş yaddaşı (WP) verilənlərin saxlanması üçün nəzərdə tutulub. İşçi yaddaşdakı məlumatlar bircinsli və ya verilənlərin növünə görə səviyyəli ola bilər. Sonuncu halda, operativ yaddaşın hər bir səviyyəsi müvafiq tipli məlumatları saxlayır. Səviyyələrin seçilməsi ekspert sisteminin strukturunu çətinləşdirir, lakin sistemi daha səmərəli edir. Məsələn, siz plan səviyyəsini, agent səviyyəsini (icra etməyə hazır qaydaların sifarişli siyahısı) və domen məlumat səviyyəsini (qərar səviyyəsi) ayıra bilərsiniz.

Müasir ekspert sistemlərində operativ yaddaşdakı verilənlər ya təcrid olunmuş, ya da əlaqəli olaraq görülür. Birinci halda işçi yaddaş çoxlu sadə elementlərdən, ikinci halda isə bir və ya bir neçə (RP-də bir neçə səviyyəli) mürəkkəb elementlərdən (məsələn, obyektlərdən) ibarətdir. Bu halda mürəkkəb element vahid bir varlığa birləşmiş sadələr toplusuna uyğun gəlir. Nəzəri cəhətdən hər iki yanaşma tamlığı təmin edir, lakin mürəkkəb mövzu sahələrində təcrid olunmuş elementlərin istifadəsi səmərəliliyin itirilməsinə səbəb olur.

RP-də verilənlər ən sadə halda sabitlər və (və ya) dəyişənlərdir.Bu halda dəyişənlər hansısa obyektin xarakteristikaları kimi, sabitlər isə müvafiq xüsusiyyətlərin qiymətləri kimi şərh edilə bilər. Əgər RP-də mövcud problem vəziyyətini təsvir edən bir neçə müxtəlif obyektin eyni vaxtda təhlili tələb olunursa, onda nəzərdən keçirilən xüsusiyyətlərin hansı obyektlərə aid olduğunu göstərmək lazımdır. Bu problemi həll etməyin yollarından biri xarakteristikanın hansı obyektə aid olduğunu açıq şəkildə göstərməkdir.

Əgər RP mürəkkəb elementlərdən ibarətdirsə, o zaman ayrı-ayrı obyektlər arasındakı əlaqə, məsələn, semantik əlaqələr qurmaqla açıq şəkildə göstərilir. Üstəlik, hər bir obyektin öz daxili quruluşu ola bilər. Qeyd etmək lazımdır ki, axtarış və müqayisəni sürətləndirmək üçün RP-də məlumatlar təkcə məntiqi deyil, həm də assosiativ şəkildə əlaqələndirilə bilər.

Məlumat bazasında biliklərin təşkili

Biliklərin təmsil olunması baxımından sistemin intellektinin göstəricisi sistemin lazımi (müvafiq) biliklərdən lazımi vaxtda istifadə etmək qabiliyyətidir. Müvafiq bilikləri müəyyən etmək imkanı olmayan sistemlər istər-istəməz “kombinator partlayışı” problemi ilə üzləşirlər. Bu problemin ekspert sistemlərinin əhatə dairəsini məhdudlaşdıran əsas səbəblərdən biri olduğunu iddia etmək olar. Bilik əldə etmək problemində üç aspekti ayırd etmək olar: bilik və verilənlərin əlaqəsi, biliyə çıxış mexanizmi, müqayisə üsulu.

Biliyin bağlılığı (aqreqasiyası) müvafiq biliklərin axtarışını sürətləndirməyin əsas yoludur. Əksər mütəxəssislər belə nəticəyə gəldilər ki, biliklər mövzu sahəsinin ən vacib obyektləri (obyektləri) ətrafında təşkil edilməlidir. Bəzi varlığı xarakterizə edən bütün biliklər ayrıca bir obyekt kimi əlaqələndirilir və təmsil olunur. Biliyin belə təşkili ilə sistemə hansısa varlıq haqqında məlumat lazımdırsa, o zaman bu varlığı təsvir edən obyekti axtarır, sonra isə obyektin daxilində bu varlıq haqqında məlumat tapır. Obyektlərdə elementlər arasında iki növ əlaqəni ayırd etmək məqsədəuyğundur: xarici və daxili.Daxili linklər elementləri vahid obyektdə birləşdirir və obyektin strukturunu ifadə etmək üçün nəzərdə tutulub. Xarici əlaqələr ekspertiza sahəsində obyektlər arasında mövcud olan qarşılıqlı asılılıqları əks etdirir. Bir çox tədqiqatçılar xarici əlaqələri vergi və assosiativ kimi təsnif edirlər.Məntiqi bağlantılar bilik elementləri arasında semantik əlaqələri ifadə edir. Assosiativ bağlantılar müvafiq biliklərin axtarışını sürətləndirməyə kömək edən əlaqələr təmin etmək üçün nəzərdə tutulmuşdur.

Böyük bilik bazası ilə işləyərkən əsas problem həll olunan problemə uyğun olan biliklərin tapılması problemidir. Emal edilən məlumatların emalı üçün tələb olunan dəyərlərin açıq göstəricilərini ehtiva etməməsi səbəbindən, birbaşa giriş metodundan (açıq istinad üsulu) daha ümumi bir giriş mexanizmi lazımdır. Bu mexanizmin vəzifəsi, iş yaddaşında mövcud olan obyektin bəzi təsvirinə uyğun olaraq, bilik bazasında bu təsvirə cavab verən obyektləri tapmaqdır. Aydındır ki, biliklərin sıralanması və strukturlaşdırılması axtarış prosesini əhəmiyyətli dərəcədə sürətləndirə bilər.

İstənilən obyektlərin tapılması ümumi halda iki mərhələli proses kimi nəzərə alınmalıdır. Birinci mərhələdə, assosiativ əlaqələr üzrə seçim prosesinə uyğun olaraq, arzu olunan obyektlərin rolu üçün potensial namizədlərin bilik bazasında ilkin seçim aparılır. İkinci mərhələdə potensial namizədlərin namizədlərin təsvirləri ilə müqayisəsi əməliyyatı aparılaraq, arzu olunan obyektlərin yekun seçimi həyata keçirilir. Belə bir giriş mexanizmini təşkil edərkən müəyyən çətinliklər yaranır: Namizədin uyğunluq meyarını necə seçmək olar? Münaqişə vəziyyətlərində işi necə təşkil etmək olar? və s.

Uyğunlaşdırma əməliyyatı yalnız bir sıra namizədlər arasından istədiyiniz obyekti seçmək vasitəsi kimi istifadə edilə bilməz; təsnifat, doğrulama, parçalanma və korreksiya üçün istifadə edilə bilər. Naməlum obyekti müəyyən etmək üçün onu bəzi məlum nümunələrlə müqayisə etmək olar. Bu, naməlum obyekti ən yaxşı nəticələrin əldə edildiyi ilə müqayisədə məlum nümunə kimi təsnif edəcək. Axtarışda, bir çox mümkün namizədlərdən bəzilərini təsdiqləmək üçün uyğunluqdan istifadə edilir. Bəzi məlum obyekti naməlum təsvirlə müqayisə etsəniz, uğurlu uyğunluq halında təsvirin qismən parçalanması həyata keçiriləcəkdir.

Uyğunlaşdırma əməliyyatları çox müxtəlifdir. Adətən aşağıdakı formalar fərqləndirilir: sintaktik, parametrik, semantik və məcburi uyğunluq.Sintaktik uyğunluq zamanı obyektlərin məzmunu deyil, formalar (nümunələr) əlaqələndirilir. Uğurlu uyğunluq eyni nümunələrlə nəticələnən uyğunluqdur. Ümumiyyətlə güman edilir ki, bir modelin dəyişəni başqa modelin hər hansı sabiti (və ya ifadəsi) ilə eyni ola bilər. Nümunəyə daxil edilmiş dəyişənlər bəzən uyğunlaşa biləcəkləri sabitlərin növünü müəyyən edən tələblərə tabe olurlar. Sintaktik uyğunluğun nəticəsi binardır: nümunələr uyğun gəlir və ya uyğun gəlmir. Parametrik uyğunlaşdırmada siz uyğunluq dərəcəsini təyin edən parametr daxil edirsiniz. Semantik müqayisə zamanı əlaqəli olan obyekt nümunələri deyil, onların funksiyalarıdır. Məcburi uyğunlaşdırma zamanı bir uyğunlaşdırılmış nümunə digərinin nöqteyi-nəzərindən nəzərdən keçirilir. Digər uyğunlaşma növlərindən fərqli olaraq burada həmişə müsbət nəticə əldə etmək olar. Məsələ məcburiyyət gücündədir. Məcburiyyət obyektlərlə əlaqəli xüsusi prosedurları yerinə yetirə bilər. Bu prosedurlar uyğun gəlmirsə, sistem yalnız sözügedən qurumların müəyyən hissələrinin uyğun olduğunu hesab etmək şərtilə uğurun əldə oluna biləcəyini bildirir.

Ekspert sistemlərində həll axtarış üsulları

Problemlərin həlli üsulları onları azaltmağa əsaslanan axtarışdan asılıdır

psixosomatikada psixodiaqnostika, eləcə də digər sistemlər. problemin həll olunduğu mövzu sahəsinin xüsusiyyətləri və istifadəçinin həllinə qoyduğu tələblər. Həll üsulları baxımından mövzu sahəsinin xüsusiyyətləri aşağıdakı parametrlərlə xarakterizə edilə bilər:

həlli axtarmaq üçün yerin miqdarını təyin edən ölçü;

ərazinin dəyişkənliyi, ərazinin zaman və məkanda dəyişkənlik dərəcəsini xarakterizə edir (burada statik və dinamik sahələri ayırd edəcəyik);

ərazini təsvir edən modelin tamlığı verilmiş ərazini təsvir etmək üçün istifadə edilən modelin adekvatlığını xarakterizə edir. Adətən, əgər model tam deyilsə, o zaman obyekt sahəsinin müxtəlif xassələrini əks etdirərək bir-birini tamamlayan ərazini təsvir etmək üçün bir neçə modeldən istifadə olunur;

həll olunan problem haqqında məlumatların dəqiqliyi məlumatların dəqiqlik (səhv) və tamlıq (natamamlıq) dərəcəsini xarakterizə edir. Dəqiqlik (səhv) həll olunan vəzifələr baxımından mövzu sahəsinin dəqiq və ya qeyri-dəqiq məlumatlarla təsvir edilməsinin göstəricisidir; məlumatların tamlığı (natamamlığı) problemin unikal həlli üçün daxil edilmiş məlumatların kifayət (qeyri-kafi) olması kimi başa düşülür.

Axtarışdan istifadə etməklə həll edilən problemin nəticəsi üçün istifadəçinin tələbləri həllərin sayı və nəticənin xüsusiyyətləri və (və ya) onu əldə etmə üsulu ilə xarakterizə edilə bilər. "Qərarların sayı" parametri aşağıdakı əsas dəyərləri qəbul edə bilər: bir qərar, bir neçə qərar, bütün qərarlar. "Xüsusiyyətlər" parametri nəticənin və ya onu əldə etmə metodunun təmin etməli olduğu məhdudiyyətləri müəyyən edir. Beləliklə, məsələn, xəstələrin müalicəsi üçün tövsiyələr verən bir sistem üçün istifadəçi müəyyən bir dərmanı istifadə etməmək tələbini təyin edə bilər (onun olmaması və ya bu xəstə üçün əks göstəriş olması səbəbindən). "Xüsusiyyətlər" parametri həll vaxtı ("çox deyil", "vaxt diapazonu" və s.), nəticə əldə etmək üçün istifadə olunan yaddaşın miqdarı, məcburi (qeyri-mümkün) istifadənin göstəricisi kimi xüsusiyyətləri də müəyyən edə bilər. hər hansı bilik (məlumat) və s.

Beləliklə, yuxarıda göstərilən parametrlər toplusu ilə müəyyən edilən tapşırığın mürəkkəbliyi sabit məlumatlara malik sadə aşağı ölçülü tapşırıqlardan və nəticədə və onun əldə edilməsi üsulunda heç bir məhdudiyyət olmadan mürəkkəb tapşırıqlara qədər dəyişir. yüksək ölçü dəyişkən, səhv və natamam məlumatlar və nəticəyə və onun əldə olunma üsuluna ixtiyari məhdudiyyətlərlə. Ümumi mülahizələrdən aydın olur ki, bütün problemləri hər hansı bir üsulla həll etmək mümkün deyil. Adətən, bəzi üsullar yalnız sadalanan bəzi parametrlərdə digərlərindən üstündür.

Aşağıda müzakirə olunan üsullar statik və dinamik problemli mühitlərdə işləyə bilər. Onların dinamik şəraitdə işləməsi üçün dəyişən dəyərlərin ömrünü, dəyişənlər üçün məlumat mənbəyini nəzərə almaq, həmçinin dəyişən dəyərlərin tarixini saxlamaq, xarici mühiti modelləşdirmək və onlarla işləmək bacarığını təmin etmək lazımdır. qaydalarda müvəqqəti kateqoriyalar.

Ekspert sistemlərində istifadə olunan mövcud problemlərin həlli üsullarını aşağıdakı kimi təsnif etmək olar:

bir məkanda axtarış üsulları - aşağıdakı şərtlərdə istifadə üçün nəzərdə tutulmuş üsullar: kiçik ölçülü sahələr, modelin tamlığı, dəqiq və tam məlumat;

iyerarxik məkanlarda axtarış üsulları - yüksək ölçülü sahələrdə işləmək üçün nəzərdə tutulmuş üsullar;

qeyri-dəqiq və natamam məlumatların axtarış üsulları;

bir modelin adekvat təsvir etmək üçün kifayət etmədiyi sahələrlə işləmək üçün nəzərdə tutulmuş bir neçə modeldən istifadə edən axtarış üsulları.

Mürəkkəbliyi bir neçə parametrdə eyni vaxtda artan problemlərin həllinə imkan vermək üçün zəruri hallarda sadalanan üsulların birləşdirilməli olduğu güman edilir.

Statik Ekspert Sistemlərinin Yaradılması üçün Alət Kompleksi (Eko İnteqrasiya Kompleksi Nümunəsində)

Rusiya İT və AP Tədqiqat İnstitutunda hazırlanmış ECO kompleksinin nümunəsindən istifadə edərək statik ES yaratmaq üçün vasitələrin xüsusiyyətlərini nəzərdən keçirək. Kompleks diaqnostika (texniki və tibbi), evristik qiymətləndirmə (risk, etibarlılıq və s.), yüksək keyfiyyətli proqnozlaşdırma, həmçinin təlim problemlərini həll edən ES yaratmaq üçün ən uğurla istifadə olunur.

ECO kompleksindən istifadə olunur: fərdi kompüterlərdə kommersiya və sənaye ekspert sistemlərinin yaradılması, habelə müəyyən bir problem sahəsində bilik mühəndisliyi metodlarının tətbiqini müəyyən etmək üçün ekspert sistemlərinin prototiplərini tez bir zamanda yaratmaq.

İƏT kompleksi əsasında 100-dən çox tətbiqi ekspert sistemi hazırlanmışdır. Onların arasında aşağıdakıları qeyd edirik:

fərdi kompüterdə tək nasazlıqları axtarmaq;

hidrotexniki qurğunun (Çarvak SES) vəziyyətinin qiymətləndirilməsi;

hazırlıq iş məktubları xarici tərəfdaşlarla yazışmalar apararkən;

immunoloji vəziyyətin skrininq qiymətləndirilməsinin aparılması;

qeyri-spesifik xroniki ağciyər xəstəliklərindən əziyyət çəkən xəstənin mikrobioloji müayinəsinin göstəricilərinin qiymətləndirilməsi;

Bilik təmsili vasitələri və idarəetmə strategiyaları

IVF kompleksi üç komponentdən ibarətdir.

Kompleksin əsasını təmin edən IVF ekspert sistemlərinin inteqrasiya olunmuş qabığı təşkil edir sürətli yaradılması 1 və 2 tipli statik problemli mühitlərdə təhlil problemlərinin həlli üçün effektiv tətbiqlər.

Qabıq biliklərinin təqdimat vasitələrini hazırlayarkən iki əsas məqsəd qarşıya qoyulmuşdur: fərdi kompüterlərdən istifadə etməklə kifayət qədər geniş və praktiki olaraq əhəmiyyətli sinif tapşırıqlarının effektiv həlli; istifadəçi interfeysini təsvir etmək və xüsusi tətbiqlərdə məsləhətləşmələr aparmaq üçün çevik seçimlər. Bilik qabıqda təmsil olunduqda, "atribut-dəyər" tipli ixtisaslaşdırılmış (özəl) təsdiqlərdən və özəl qaydalardan istifadə olunur ki, bu da nümunə uyğunluğunun resurs tutumlu əməliyyatını aradan qaldırmağa və hazırlanmış tətbiqlərin səmərəliliyinə nail olmağa imkan verir. Məsləhət skripti vasitəsilə xarici proqramların çağırılması və verilənlər bazası (PIRS və dBase IV) və xarici proqramlar ilə docking vasitəsilə təmin edilən inteqrasiya sayəsində qabığın ifadə imkanları əhəmiyyətli dərəcədə genişləndirildi. ECO qabığında bilik bazasının zəif strukturlaşdırılması onun ayrı-ayrı komponentlərə bölünməsi hesabına təmin edilir - problemli mühitdə fərdi alt tapşırıqları həll etmək üçün - model (EKO-nun "modeli" konsepsiyası İƏT konsepsiyasına uyğundur). G2 sisteminin bilik bazasının "modulu").

ES inkişaf texnologiyası baxımından qabıq səthi biliyə və həll prosesinin strukturlaşdırılmasına əsaslanan yanaşmaları dəstəkləyir.

Qabıq iki rejimdə işləyir: bilik əldə etmək rejimində və məsləhətləşmə rejimində (problemin həlli). Birinci rejimdə ES tərtibatçısı dialoq redaktorundan istifadə edərək, qabığın biliklərin ifadə dili baxımından bilik bazasına konkret tətbiqin təsvirini daxil edir. Bu təsvir xüsusi ifadələrə və qaydalara birbaşa ünvan bağlantıları olan bir nəticə çıxarma şəbəkəsində tərtib edilmişdir. İkinci rejimdə, qabıq dialoq və ya toplu rejimdə xüsusi istifadəçi tapşırıqlarını həll edir. Bu halda, həllər məqsədlərdən verilənlərə (əks əsaslandırma) götürülür.

Dərin biliklərlə işləmək üçün qabığın imkanlarını genişləndirmək üçün ECO kompleksi K-ECO komponenti (biliklərin konkretləşdiricisi) ilə əlavə edilə bilər ki, bu da problemli mühitlərdə nümunələri ümumi (mücərrəd) obyektlər baxımından təsvir etməyə imkan verir. Qaydalar. K-ECO ümumi təsvirləri xüsusi nəticə şəbəkələrinə çevirmək üçün dialoq qabığı redaktoru əvəzinə öyrənmə mərhələsində istifadə olunur. təsirli nəticə ECO qabığı vasitəsilə həllər. Beləliklə, betonlaşdırıcının istifadəsi 2-ci tip problemli mühitlərlə işləməyi mümkün edir (bax. Fəsil 3).

Kompleksin üçüncü komponenti məlumatların (nümunələrin) induktiv ümumiləşdirilməsi hesabına statik problemli mühitlərdə ES yaratmağa imkan verən və problemli mühitdə nümunələri əks etdirən qaydaların olmamasının kompensasiya edildiyi tətbiqlərdə istifadə üçün nəzərdə tutulmuş ILIS sistemidir. geniş eksperimental material. ILIS sistemi ən sadə spesifik qaydaların avtomatik yaradılmasını və onların əsasında problemin avtonom həllini təmin edir; bu halda istifadəçi ilə sərt dialoq sxemindən istifadə edilir. Həqiqi tətbiqlər yaratarkən, mütəxəssislər, bir qayda olaraq, həm problem mühitindəki nümunələr, həm də eksperimental material (müəyyən alt tapşırıqların həlli üçün) haqqında bilikləri təqdim etdikləri üçün ILIS sistemi tərəfindən yaradılan qaydalardan daha mürəkkəb bilik təqdimetmə vasitələri daxilində istifadə etmək zərurəti yaranır. . ECO kompleksi bu cür qaydaların ECO shell formatına avtomatik tərcüməsini təmin edir. Nəticədə, real problemli mühitin tam (adekvat) təsvirini əldə etmək, əlavə olaraq, ES ilə son istifadəçi arasında qarşılıqlı əlaqənin təşkilinin çevik təsvirini təyin etmək mümkündür.

Real vaxt rejimində ekspert sistemlərinin yaradılması üçün alətlər kompleksi (inteqrasiya edilmiş mühit g2-gensym corp., ABŞ nümunəsində)

Real vaxt rejimində ES yaratmaq üçün IC-lərin inkişaf tarixi 1985-ci ildə, Lisp Machine Inc. Symbolics simvolik kompüterlər üçün Picon sistemini buraxdı. Bu IC-nin uğuru bir qrup aparıcı Picon tərtibatçısının 1986-cı ildə özəl Gensym firmasını yaratmasına səbəb oldu ki, bu firma Picon-da təcəssüm olunan ideyaları əhəmiyyətli dərəcədə inkişaf etdirərək 1988-ci ildə G2, 1.0 versiyası adlı IC ilə bazara daxil oldu. 4.2 versiyası hazırda işləyir və 5.0 versiyası buraxılışa hazırlanır.

Gensym proqram məhsullarının (ABŞ) əsas məqsədi müəssisələrə məhsulun keyfiyyətini, istehsalın etibarlılığını və təhlükəsizliyini yaxşılaşdıran və istehsal xərclərini azaldan real vaxt rejimində intellektual sistemlərdə ən istedadlı və ixtisaslı işçilərin bilik və təcrübələrini saxlamağa və istifadə etməyə kömək etməkdir. Gensym-in bu vəzifənin öhdəsindən necə gəldiyi, ən azı, bu gün idarəetmə sistemlərində istifadə olunan ekspert sistemləri üçün dünya bazarının 50% -nə sahib olmasından xəbər verir.

Gensym-dən 2 - 3 il geri qalaraq, digər şirkətlər ES RT üçün öz IC-lərini yaratmağa başladılar. Sadalanan bəzi sistemlərin xüsusiyyətlərini və imkanlarını hərtərəfli tədqiq edən NASA-nın müstəqil ekspertlərinin nöqteyi-nəzərindən, hazırda G2 (Gensym, ABŞ) şübhəsiz ki, ən qabaqcıl İS olaraq qalır; əhəmiyyətli geriləmə ilə aşağıdakı yerləri (G2 imkanlarının 50%-dən azı həyata keçirilir) RTWorks - Talarian (ABŞ), COMDALE / C (Comdale Techn. - Kanada), COGSYS (SC - ABŞ), ILOG Qaydaları () tutur. ILOG - Fransa).

G2 və oxşar sistemlərin nəzərdə tutulduğu tapşırıq sinifləri:

real vaxt rejimində monitorinq;

yüksək səviyyəli idarəetmə sistemləri;

nasazlıqların aşkarlanması sistemləri;

diaqnostika;

planlaşdırma;

planlaşdırma;

optimallaşdırma;

sistemlər - operatorun məsləhətçiləri;

dizayn sistemləri.

Gensym-in alətləri ənənəvi ekspert sistemlərinin statikdən dinamik domenlərə qədər inkişafında təkamül mərhələsidir. Gensym-in uğurunun əhəmiyyətli bir hissəsini onun yeni inkişaflarında riayət etdiyi əsas prinsiplər təmin edir:

problem / mövzu istiqaməti;

standartlara uyğunluq;

hesablama platformasından müstəqillik;

əvvəlki versiyalarla aşağıdan yuxarı uyğunluq;

həll olunan vəzifədən asılı olmayaraq universal imkanlar;

tətbiq olunan sistemlər üçün texnoloji bazanın təmin edilməsi;

rahat inkişaf mühiti;

texnologiyanın inkişafının yeni yollarını axtarmaq;

paylanmış müştəri-server arxitekturası;

yüksək performans.

Rusiya istifadəçiləri üçün G2 ekspert sistemlərinin qabığının əsas üstünlüyü ondan inteqrasiya komponenti kimi istifadə etmək imkanıdır ki, bu da interfeyslərin açıqlığı və geniş spektrli hesablama platformalarının dəstəyi sayəsində mövcud, fərqli avtomatlaşdırma vasitələrini asanlıqla birləşdirməyə imkan verir. təkliyə inteqrasiya olunmuş sistem istehsal fəaliyyətinin bütün aspektlərini əhatə edən idarəetmə - sifarişlər portfelinin formalaşdırılmasından prosesə nəzarət və hazır məhsulların göndərilməsinə qədər. Bu, xüsusilə iqtisadiyyatdakı kəskin dalğalanmaların təsiri altında aparat və proqram təminatı parkı təsadüfən formalaşan yerli müəssisələr üçün xüsusilə vacibdir.

Əsas inkişaf aləti kimi G2 sisteminə əlavə olaraq, Gensym proses elementlərini və tipik məlumatların emalı tapşırıqlarını təmsil etmək üçün parametrləşdirilə bilən operator blokları da daxil olmaqla, ixtisaslaşmış qrafik dillərə əsaslanan mürəkkəb dinamik sistemlərin sürətlə həyata keçirilməsi üçün bir sıra domen/domen yönümlü genişləndirmələr təklif edir. . Problem istiqamətinə görə qruplaşdırılmış Gensym alət dəsti istehsal prosesinin bütün mərhələlərini əhatə edir və belə görünür:

ağıllı istehsal nəzarəti - G2, G2 Diaqnostika Köməkçisi (GDA), NeurOn-Line (NOL), Statistik Proseslərə Nəzarət (SPC), BatchDesign_Kit;

əməliyyat planlaşdırması - G2, G2 Planlaşdırma Alətlər dəsti (GST), Dinamik Planlaşdırma Paketi (DSP);

istehsal proseslərinin işlənib hazırlanması və modelləşdirilməsi - G2, ReThink, BatchDesign_Kit;

əməliyyatlar və korporativ şəbəkənin idarə edilməsi - G2, Fault Expert.

G2 sisteminin ilk versiyasının çox keçmədən - 1988-ci ildə ortaya çıxmasına baxmayaraq, heç kim onu ​​zəngin Amerikada belə ucuz adlandırmayacaq. G2-ni proqram təminatı bazarında bestseller adlandırmaq olar - 1996-cı ilin əvvəlində dünyada onun 5000-dən çox nüsxəsi quraşdırılmışdı. Gensym aerokosmik tədqiqatlardan tutmuş qida istehsalına qədər 30-dan çox sənaye sahəsinə xidmət göstərir. G2 istifadəçi siyahısı qlobal sənaye üçün Kim Kimdir bələdçisi kimi görünür. Dünyanın ən böyük sənaye korporasiyalarından 25-i G2-dən istifadə edir. G2 əsasında 500-dən çox aktiv ərizə yazılmışdır.

G2 instrumental kompleksinin uğurunu nə izah edir? Əvvəla, G2 sözün tam mənasında dinamik sistemdir. G2, bilik bazalarından istifadə edən real vaxt proqramlarını inkişaf etdirmək və saxlamaq üçün obyekt yönümlü çərçivədir. G2 əksər mövcud platformalarda işləyir (Cədvəl 9.1). G2 bilik bazası adi qaydada saxlanılır

Cədvəl 9.1 G2-nin işlədiyi platformalar

Şirkət istehsalçısı

Hesablama sistemi

Əməliyyat mühiti

VAX Zxxx, 4xxx, bxxx,

7xxx, 8xxx, 9xxx

DECstation Zxxx, bxxx

Açıq VMS, OSF/1,

SPARC 1,2, 10, LX,

SunOS/Solaris 1, Solaris

Hewlett Packard

HP9000/4xx, 7xx, 8xx

Silikon qrafika

Intel 486/Pentium

Windows NT, Windows 95

MÜHAZİRƏ 9 YARADILIŞWEBPIUM CHART SƏHİFƏLƏRİ

Pivot Cədvəl Siyahısı komponentindən istifadə etməyin ən asan yolu Microsoft Excel Pivot Cədvəlini Veb səhifə kimi saxlamaqdır. Bunu etmək üçün menyu elementini seçin Fayl | Veb Səhifə Kimi Saxla, görünən dialoq qutusunda, Dərc et düyməsini basın, dialoq qutusunda Seç açılan siyahıdan Cədvəl1-də elementlər seçimini, sonra Pivot Cədvəl seçin, İnteraktivliyi əlavə et seçimini seçin və Pivot Cədvəl funksionallığını seçin. siyahı.

Sonra, lazım gələrsə, gələcək Web səhifəsində görünəcək başlığı dəyişdirin və onu yadda saxlayın. Bu səhifəni Microsoft Internet Explorer-də açsaq görərik ki, onun tərkibində Pivot Cədvəl Siyahısı, OLAP məlumatlarına baxmaq üçün ActiveX nəzarəti və Veb səhifələrdə və ya Windows proqramlarında PivotTables var (Şəkil 2).

Dərhal qeyd edirik ki, bu nəzarət yalnız Microsoft Office lisenziyası alınmış kompüterlərdə yerli şəbəkələrdə istifadə edilə bilər; İnternetdə mövcud olan Veb səhifələr kimi digər istifadələr lisenziya müqaviləsi ilə qadağandır.

Pivot Cədvəl Siyahı Komponentinin xüsusiyyətləri

Mühazirədə biz PivotTable List komponentinin təqdim etdiyi funksiyalara qısaca nəzər salacağıq.

Bu komponenti brauzerdə və ya Windows proqramında manipulyasiya edən istifadəçi, Excel Pivot Cədvəlində olduğu kimi, məlumatları Satır Sahəsi, Sütun Sahəsi və Səhifə Sahəsinə köçürə bilər (Microsoft Office Veb Komponentləri Satır Sahəsi, Sütun Sahəsi və Filtr Sahəsi terminlərindən istifadə edir) dialoq ilə Excel 2013-dən Pivot Cədvəl Sahə Siyahısı panelinə bənzəyən panel. Ölçülər və ölçülərin siyahısı olan dialoq paneli Pivot Cədvəl Siyahısı komponentinin alətlər panelində Sahə Siyahısı düyməsini klikləməklə göstərilir.

İstifadəçi həmçinin “+” işarələrinə klikləməklə aşağıya endirmə əməliyyatını həyata keçirə bilər (Şəkil 4).

Pivot Cədvəl Siyahısı komponenti məlumatları çeşidləməyə və süzməyə imkan verir. Birincisi, verilənlərin filtrasiyası yalnız seçilmiş ölçü üzvlərini göstərməklə həyata keçirilə bilər ki, bu da müvafiq Excel siyahısına bənzər açılan siyahıda yoxlanıla bilər.

İkincisi, Əmrlər və Seçimlər dialoq panelindən istifadə edərək (bu, Pivot Cədvəl Siyahısı komponentinin alətlər panelində müvafiq düyməni istifadə etməklə göstərilə bilər) məlumatların necə süzülməsini və qruplaşdırılmasını seçə bilərsiniz (məsələn, müəyyən sayda ən yüksək və ya ən aşağı dəyərləri göstərin). - İlk 5, İlk 10, Aşağı 25 və s.

Bundan əlavə, istifadəçi məlumatların ekran atributlarını dəyişə bilər - mətn rəngi və şrift, fon rəngi, mətnin düzülüşü, displey və s. Bunu etmək üçün kursoru atributları dəyişdirilməli olan məlumat elementlərindən birinə (məsələn, ölçü üzvünün adına, xülasə məlumatı olan və ya ümumi dəyərlərə malik xanaya) yerləşdirin və göstərmək üçün yeni atributları seçin. eyni Əmrlər və Seçimlər dialoq qutusunda bu tip məlumat. .

Bundan əlavə, Pivot Cədvəl Siyahısı komponenti məcmu məlumatlara əsaslanaraq ümumi məbləğin fraksiyalarını və ya faizlərini və ya ölçüsün əsas üzvünə uyğun gələn məbləği hesablamağa imkan verir (məsələn, müəyyən rübdə alınan illik mənfəətin faizi) - müvafiq variantları məlumat elementlərinin kontekst menyularında tapmaq olar.

İstifadəçi həmçinin onun üçün xüsusi olaraq hazırlanmış yardım faylına çıxış əldə edə bilər (rus dilində, əgər Microsoft Office XP-nin rus versiyasının çatdırılma dəstindən Veb komponentləri istifadə olunursa). Bununla belə, istifadəçi məlumat mənbəyini dəyişdirə və Veb-səhifədə fərqli OLAP kubunu göstərə bilməz, çünki bunu etmək hüququ yalnız Veb səhifə tərtibatçısıdır (və onun üçün ayrıca yardım faylı var ki, bu da mövcud olandan əhəmiyyətli dərəcədə fərqlidir. istifadəçi üçün nəzərdə tutulmuşdur - o, xüsusən də bu komponentin obyekt modeli haqqında məlumatları ehtiva edir).

Qeyd edək ki, oxşar Web-səhifə Microsoft FrontPage-dən istifadə etməklə də yaradıla bilər. FrontPage-də yaradılmış Veb səhifəyə Pivot Cədvəl Siyahısı daxil etmək üçün menyu elementini seçin Daxil et | Veb komponenti və görünən dialoq qutusunda Cədvəllər və Diaqramlar bölməsindən Office Pivot Cədvəli seçin.

Veb-səhifədə Pivot Cədvəl Siyahısı komponenti göründükdən sonra məlumat mənbəyini təyin etməyi təklif edən hipermətn keçidinə klikləyin və sonra təklif olunan siyahıdan ODBC mənbəyini seçin (yaxud siyahıda yoxdursa onu təsvir edin; necə etmək olar bunu bu seriyanın əvvəlki məqaləsində təsvir edilmişdir). Məlumat mənbəyi kimi siz ya server tərəfi OLAP kubundan, ya da Excel-dən istifadə etməklə yaradılmış yerli kubdan (həmçinin adi "düz" məlumat dəstini qaytaran hər hansı ODBC mənbəyinə sorğunun nəticəsi) istifadə edə bilərsiniz. Nəhayət, zərurət yaranarsa, siz Pivot Cədvəl Sahə Siyahısı informasiya qutusunu göstərə və ölçülərin və ölçülərin adlarını bu komponentin müvafiq sahələrinə köçürə bilərsiniz.

Nəzərə alın ki, Əmrlər və Seçimlər dialoq qutusunun Məlumat Mənbəsi səhifəsi yalnız dizayn zamanı (yəni FrontPage-də və ya Pivot Cədvəl Siyahısı komponenti Veb-səhifədə deyil, Windows proqramında istifadə olunursa, onda inkişaf alətində) mövcuddur. Onun köməyi ilə Əlavə). Başqa sözlə, son istifadəçinin məlumat mənbəyini dəyişmək imkanı yoxdur, bunu yalnız tərtibatçı edə bilər.

PivotCharts ilə Web Səhifələrin yaradılması

Microsoft Office Web Komponentləri həmçinin Pivot Cədvəl Siyahısı komponentində göstərilən məlumatlar əsasında PivotChart qurmağa imkan verir. Bu məqsədlə, həmçinin Microsoft Office Web Komponentlərinə daxil olan ChartSpace nəzarətindən istifadə edin. Onu Web-səhifədə yerləşdirmək üçün FrontPage menyusundan Insert | menyu elementini seçin. Veb komponenti və görünən dialoq qutusunda Cədvəllər və Qrafiklər bölməsindən Office Diaqramını seçin.

Qrafik yaratmaqda növbəti addım onu ​​çəkmək üçün məlumat mənbəyi seçməkdir. Bizim vəziyyətimizdə bu, mövcud Pivot Cədvəl Siyahısı komponenti olacaq.

Nəzərə almaq lazımdır ki, ortaya çıxan pivot diaqram bu seriyanın əvvəlki məqaləsində müzakirə olunan Excel pivot diaqramı ilə təxminən eyni funksionallığa malikdir (məsələn, bu komponent həm də ölçü və ölçülərin adlarını siçan ilə müxtəlif sahələrə sürükləməyə imkan verir. diaqramdan seçin və ölçülərin göstərilən üzvlərini seçin) və diaqrama və Pivot Cədvəldəki dəyişikliklər Excel-də OLAP kub məlumatlarını göstərərkən olduğu kimi sinxrondur.

OLAP kubuna əsaslanan pivot diaqramı birbaşa ChartSpace komponentindən istifadə etməklə də qurmaq olar. Bunun üçün Web-səhifə yaradarkən, siz Əmrlər və Seçimlər dialoq qutusunda Məlumat Təfərrüatları səhifəsində məlumat mənbəyini təsvir etməlisiniz.

Və nəhayət, pivot diaqramı olan Web səhifəsi yaratmağın başqa bir yolu. O, Excel PivotChartını veb səhifə kimi saxlamaqdan ibarətdir. Bununla belə, bu halda yaradılan diaqramla əlaqəli Pivot Cədvəl Siyahısı komponenti avtomatik olaraq eyni səhifəyə əlavə olunacaq.

Yuxarıda qeyd edildiyi kimi, PivotTable List və ChartSpace komponentləri tətbiqlərdə də istifadə edilə bilər. Bunun üçün formalarda ActiveX idarəetmə vasitələrinin istifadəsini dəstəkləyən inkişaf aləti tələb olunur (məsələn, Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Bu cür proqramları yaratmaqda maraqlı olan tərtibatçılar bu mövzuda əvvəllər dərc olunmuş məqalələrimizə müraciət edə bilərlər (məsələn, Proqramlarda Microsoft Office Komponentlərindən istifadə.

1. Data mining konsepsiyası. Məlumatların çıxarılması üsulları.

Cavab:Data mining, xam məlumatların böyük massivlərindəki dəyişənlər arasında gizli nümunələrin və ya əlaqələrin müəyyən edilməsidir. Bir qayda olaraq, təsnifat, modelləşdirmə və proqnozlaşdırma vəzifələrinə bölünür. Böyük verilənlər dəstlərində nümunələrin avtomatik axtarışı prosesi. Data Mining termini 1989-cu ildə Qriqori Pyatetski-Şapiro tərəfindən təqdim edilmişdir.

2. Kəşfiyyat xarakterli məlumatların təhlili konsepsiyası. Data Mining proseduru ilə klassik statistik məlumatların təhlili üsulları arasında fərq nədir?

Cavab:Kəşfiyyat xarakterli məlumatların təhlili (EDA) dəyişənlər arasında sistematik əlaqələri tapmaq üçün bu əlaqələrin təbiəti haqqında apriori fikirlərin olmadığı (və ya qeyri-kafi) vəziyyətlərdə istifadə olunur.

Ənənəvi məlumatların təhlili üsulları əsasən əvvəlcədən hazırlanmış fərziyyələrin sınaqdan keçirilməsinə və “kobud” kəşfiyyat təhlilinə yönəldilmişdir, halbuki Data Mining-in əsas müddəalarından biri aşkar olmayan nümunələrin axtarışıdır.

3. Qrafik kəşfiyyat məlumatlarının təhlili üsulları. Qrafik kəşfiyyat məlumatlarının təhlili üçün Statistica alətləri.

Cavab:Qrafik metodlardan istifadə etməklə siz strukturlaşdırılmamış məlumat dəstlərində "gizlənmiş" asılılıqları, meylləri və ofsetləri tapa bilərsiniz.

Qrafik kəşfiyyat təhlili üçün statistik alətlər: kateqoriyalara bölünmüş radial diaqramlar, histoqramlar (2D və 3D).

Cavab:Bu qrafiklər 2D, 3D, üçölçülü və ya n-ölçülü qrafiklər dəstləridir (məsələn, histoqramlar, səpələnmə qrafikləri, xətt qrafikləri, səthlər, dairəvi diaqramlar), müşahidələrin hər seçilmiş kateqoriyası (alt çoxluğu) üçün bir süjet.

5. Səpələnmə və kateqoriyalara ayrılmış səpilmələrin təhlilindən verilənlərin xarakteri haqqında hansı məlumatları əldə etmək olar?

Cavab:Scatterplots adətən iki dəyişən (məsələn, mənfəət və əmək haqqı) arasındakı əlaqənin xarakterini aşkar etmək üçün istifadə olunur, çünki onlar korrelyasiya əmsalından daha çox məlumat verir.

6. Histoqramların və kateqoriyalara ayrılmış histoqramların təhlilindən verilənlərin xarakteri haqqında hansı məlumatları əldə etmək olar?

Cavab:Histoqramlar dəyişən dəyərlərin tezlik paylanmasını öyrənmək üçün istifadə olunur. Bu tezlik paylanması tədqiq olunan dəyişənin hansı xüsusi dəyərlərinin və ya dəyər diapazonlarının daha tez-tez baş verdiyini, bu dəyərlərin nə qədər fərqli olduğunu, əksər müşahidələrin orta səviyyəyə yaxın yerləşdiyini, paylanmanın simmetrik və ya asimmetrik, multimodal olduğunu göstərir ( yəni iki və ya daha çox təpəyə malikdir) və ya unimodal və s. Histoqramlar həmçinin müşahidə olunan və nəzəri və ya gözlənilən paylanmaları müqayisə etmək üçün istifadə olunur.

Kateqoriyalaşdırılmış histoqramlar bir və ya bir neçə təsnifat dəyişənin müxtəlif qiymətlərinə uyğun gələn histoqramlar dəstləri və ya məntiqi təsnifat şərtləri dəstləridir.

7. Statistica-da kateqoriyalara bölünmüş süjetlər ilə matris süjetləri arasında əsas fərq nədir?

Cavab:Matris süjetləri də çoxsaylı süjetlərdən ibarətdir; lakin burada onların hər biri eyni müşahidələr toplusuna əsaslanır (və ya ola bilər) və süjetlər bir və ya iki siyahıdan dəyişənlərin bütün kombinasiyaları üçün qurulur. Kateqoriyalaşdırılmış qrafiklər uyğun tipli kateqoriyalaşdırılmamış qrafiklər kimi dəyişənlərin eyni seçimini tələb edir (məsələn, səpələnmə qrafiki üçün iki dəyişən). Eyni zamanda, kateqoriyalara bölünmüş qrafiklər üçün hər bir müşahidənin müəyyən bir alt qrupa aid olub-olmaması haqqında məlumatı ehtiva edən ən azı bir qruplaşma dəyişənini (və ya müşahidələri kateqoriyalara bölmək üsulunu) müəyyən etmək lazımdır. Qruplaşma dəyişəni birbaşa qrafikdə göstərilməyəcək (yəni, qrafikə salınmayacaq), lakin o, bütün təhlil edilən müşahidələrin ayrı-ayrı altqruplara bölünməsi üçün meyar rolunu oynayacaq. Qruplaşma dəyişəni ilə müəyyən edilmiş hər bir qrup (kateqoriya) üçün bir qrafik qurulacaq.

8. Kəşfiyyat xarakterli məlumatların təhlili üçün qrafik metodların üstünlükləri və çatışmazlıqları hansılardır?

Cavab:+ Görünüş və sadəlik.

- Metodlar təxmini qiymətlər verir.

9. İlkin kəşfiyyat məlumatlarının təhlilinin hansı analitik üsullarını bilirsiniz?

Cavab:Statistik üsullar, neyron şəbəkələr.

10. Statistica sistemində seçmə verilənlərin normal paylanma modeli ilə paylanmasının uyğunluğu haqqında fərziyyəni necə yoxlamaq olar?

Cavab:n sərbəstlik dərəcəsi ilə x 2 (xi-kvadrat) paylanması n müstəqil standart normal təsadüfi dəyişənin kvadratlarının cəminin paylanmasıdır.

Ki-kvadrat fərq ölçüsüdür. Səhv səviyyəsini a=0.05 olaraq təyin edin. Müvafiq olaraq, əgər dəyəri p>a , onda paylanma optimaldır.

- xi-kvadrat testindən istifadə edərək nümunə məlumatlarının normal paylanma modeli ilə paylanmasının razılığı haqqında fərziyyəni yoxlamaq üçün Statistika/Paylaşma Fitinqləri menyusunu seçin. Daha sonra Fitting Contentious Distribution dialoq qutusunda nəzəri paylanma növünü Normal olaraq təyin edin, dəyişəni - Dəyişənləri seçin və analiz parametrlərini Parametrlərə təyin edin.

11. Kəmiyyət dəyişənlərinin əsas statistik xüsusiyyətləri hansıları bilirsiniz? Onların təsviri və həll olunan problem baxımından şərhi.

Cavab:Kəmiyyət dəyişənlərinin əsas statistik xüsusiyyətləri:

riyazi gözlənti (müəssisələr arasında orta məhsuldarlıq)

median

standart sapma (diferensiyanın kvadrat kökü)

dispersiya (verilmiş təsadüfi kəmiyyətin yayılmasının ölçüsü, yəni onun riyazi gözləntidən sapması)

asimmetriya əmsalı (Simmetriya mərkəzinə nisbətən yerdəyişməni qaydaya uyğun olaraq təyin edirik: əgər B1>0 olarsa, onda sola yerdəyişmə, əks halda - sağa.)

kurtoz əmsalı (normal paylanmaya yaxın)

minimum nümunə dəyəri, maksimum nümunə dəyəri,

səpmək

Qismən korrelyasiya əmsalı (digər dəyişənlərin qiymətlərinin sabit səviyyədə sabit olması şərtilə dəyişənlər arasında sıxlıq dərəcəsini ölçür).

Keyfiyyət:

Spearmanın rütbə korrelyasiya əmsalı (hadisələr arasındakı əlaqəni statistik öyrənmək məqsədi ilə istifadə olunur. Tədqiq olunan obyektlər hansısa atributla bağlı sıralanır, yəni onlara sıra nömrələri - rütbələr verilir.)

Ədəbiyyat

1. Ayvazyan S.A., Enyukov İ.S., Meşalkin L.D. Tətbiqi Statistika: Modelləşdirmə və İlkin Məlumatların Emalının Əsasları. - M.: "Maliyyə və statistika", 1983. - 471 s.

2. Borovikov V.P. statistika. Kompüter məlumatlarının təhlili sənəti: Peşəkarlar üçün. 2-ci nəşr. - Sankt-Peterburq: Peter, 2003. - 688 s.

3. Borovikov V.P., Borovikov I.P. Statistica - Windows mühitində statistik təhlil və məlumatların işlənməsi. - M.: "Filin", 1997. - 608 s.

4. Məlumatların təhlili üzrə StatSoft elektron dərsliyi.