Akıllı Belge İşleme Sistemleri Oluşturma – Varlık Bulucu – Grape Up

In: Genel


Akıllı Belge İşleme sistemleri oluşturma yolculuğumuz, varlık bulucularla, anahtar bilgileri çıkarmaktan sorumlu bileşenlerle tamamlanacaktır.

Bu, serinin üçüncü bölümü hakkında Akıllı Belge İşleme (IDP). Seri 3 bölümden oluşmaktadır:

Varlık bulucu

Belgeleri sınıflandırdıktan sonra, sınıfa özel bazı bilgileri çıkarmaya odaklanıyoruz. Yargı yetkisi, mülk adresi ve taraf adlarındaki ana çıkarları ortaya koyuyoruz. Çıkarmalarından sorumlu bileşenleri basitçe “bulucular” olarak adlandırdık.

Yargı alanları, sözlüklere ve basit kurallara göre tanımlanabileceklerini gösterdi. Aynı durum dosya tarihleri ​​için de geçerlidir.

Bağlam bulucu

Sonraki 3 varlık – adresler, taraflar ve belge tarihleri ​​bize bir meydan okuma sağlar.

Şu gerçeği not edelim:

  1. Adresleri göz önünde bulundurarak. Bir ilk sayfada tek başına 6 adrese kadar olabilir. Bazıları belge taraflarına, bazıları hukuk bürosuna, diğerleri belirli bir süreçte yer alan diğer kuruluşlara aittir. Bu adresler labirentinde bir yerde ilgilendiğimiz bir adres var – mülk adresi. Veya yoktur – her belgede adres olması gerekmez. Bazılarında genellikle yalnızca sayfanın veya başka bir belgenin işaretçileri bulunur (ki bunları da çıkarmamız gerekir).
  2. Belge tarihlerindeki durum biraz daha basittir. Açıkçası, genellikle belgede herhangi bir sayıdan bahsetmeyen birkaç tarih vardır, tarihler mümkün olan her formattadır, ancak genellikle belge tarihi oluşur ve ayırt etmek mümkündür.
  3. Parti isimleri – muhtemelen bulunması en zor varlıklar. Belgeye bağlı olarak, bir veya daha fazla taraf olabilir veya hiç taraf olmayabilir. Zorluk, belgede bir kişiyi, şirketi veya kurumu temsil eden hemen hemen her adın parti için potansiyel bir aday olmasıdır. Belirli bir adın bir partiyi temsil ettiğini gösteren bağlamların değişkenliği, düzen ve metin bağlamları dahil olmak üzere çok büyüktür.

Genel olarak, çözümlerimiz üç mekanizmaya dayanmaktadır.

  • Bağlam bulucular: Aranan varlıkların oluşabileceği bağlamları ararız.
  • Varlık bulucu: Belirli bir dizenin arama değeri olma olasılığını tahmin ediyoruz.
  • Yöneticiler: Bağlam hakkındaki bilgileri Değerler hakkındaki bilgilerle birleştirir ve değerin kabul edilip edilmediğine karar veririz.

Adres bulucu

Adresler bazen aşağıdakiler gibi çok satırlı nesnelerdir:

“LOT 123 OF THIS AND THIS ESTATES, A SUBDIVISION OF PART OF THE SOUTH HALF OF THE NORTHEAST QUARTER AND THE NORTH HALF OF THE SOUTHEAST QUARTER OF SECTION 123 (...)”. 

Adresin birden fazla veya birkaç satıra yazılması mümkündür. Böyle bir ifade oluştuğunda, aşağıdaki gibi daha basit bir şey arıyoruz:

“The Institution, P.O. Box 123 Cheyenne, CO 123123” 

Ancak her adres türü için hazırlıklıyız.

Adresler söz konusu olduğunda, sistemimiz bir belgedeki her satırı olası bir adres satırı olarak sınıflandırır. Sınıflandırma, n-gramlara ve büyük harf sayısı, rakamların oranı, bir satırdaki özel işaretlerin oranı gibi diğer özelliklere dayanmaktadır. Adresin satırda meydana gelme olasılığını tahmin ediyoruz. Ardından satırları olası adres bloklarında birleştiriyoruz.

Ortaya çıkan bloklar birçok yerde bulunabilir. Bazı bloklar süreklidir, ancak adresteki tek bir satır yeterince olası görülmediğinde bazıları boşluk oluşturur. Benzer şekilde, tek bir aykırı değer çizgisi oluşabilir. Bu yüzden olasılıkları kurallarla düzeltiriz.

Olası adres bloklarını oluşturduktan sonra bunları bağlamlarla filtreliyoruz.

Adreslerin oluşabileceği bağlamları manuel olarak topladık. Bunları metinde daha sonra sözlük benzeri bir şekilde bulabiliriz. Bağlamlar çok benzer olabilir ancak aynı olmayabilir, çünkü Dinamik Zaman Çarpıtma’yı kullanabiliriz.

Benzer ancak aynı olmayan bağlam örneği şunlar olabilir:

“real property described as follows:” 

“real property described as follow:”

Belge tarihi bulucu

Belge tarihleri, “bunun tarihli” veya “bu belgenin yapıldığı tarih” gibi sınırlı sayıda iyi tanımlanmış bağlam sayesinde bulunması en kolay varlıklardır. Eğitim belgeleri arasında en sık görülen belge tarihi bağlam kalıplarını ortaya çıkarmak için sık kalıp madenciliği algoritmalarını kullandık. Bundan sonra, python ekosisteminden değiştirilmiş bir açık kaynak kitaplığı kullanarak belirli bir belgedeki her tarih oluşumunu işaretledik. Ardından, belge tarihi olarak en olası tarihi seçmek için her biri için bağlam tabanlı kurallar uyguladık. Bu çözüm, test seti ve etiket kalitesine bağlı olarak %82-98 doğruluğa sahiptir.

Parti bulucu

Çözümümüzün bu bölümünün belge tarihleri ​​bulucuyla birlikte uygulandığını ve geliştirildiğini belirtmekte fayda var. Julia dili. Julia, bilimin kıyısında gelişmek için harika bir araçtır ve bununla ilgili görüşleri başka bir blog yazısında okuyabilirsiniz.

Çözüm kendi başına, bir şekilde daha önce açıklanana, özellikle de belge tarihi bulucuya benzer. Çizgi sınıflandırıcıyı atlıyoruz ve bağlamın etkisini vurguluyoruz. Burada, potansiyel tarafları işaretlemek ve en umut verici olanı seçmek için düzenli ifadeye ve birçok hiyerarşik bağlam grubuna dayalı çok genel bir ad bulucu kullandık.

Özet

Bu bölüm, bir proje sunmaya odaklanan projemizi sonlandırıyor. Akıllı Belge İşleme sistem. Bizim de olduğu gibi, AI çeşitli alanlarda operasyonları otomatikleştirmemize ve iyileştirmemize olanak tanır.

Bankalardaki süreçler genellikle işgücüne bağlıdır, yani çoğu süreç manuel ve emek yoğun olduğundan, yalnızca işgücünün kaldırabileceği kadar iş üstlenebilirler. Belgeleri tanımlamak, sınıflandırmak, sıralamak, dosyalamak ve dağıtmak için makine öğrenimini kullanmak, büyük maliyet tasarrufları sağlayacak ve günümüzde hiçbirinin olmadığı kârlı değer akışlarına ölçeklenebilirlik katacaktır.

Bir cevap yazın

Ready to Grow Your Business?

We Serve our Clients’ Best Interests with the Best Marketing Solutions. Find out More

How Can We Help You?

Need to bounce off ideas for an upcoming project or digital campaign? Looking to transform your business with the implementation of full potential digital marketing?

For any career inquiries, please visit our careers page here.
[contact-form-7 404 "Bulunamadı"]