inanzzz | Bazı faydalı elasticsearch notları

Aşağıdakiler faydalı sayılabilecek elasticsearch notlarıdır.

Elasticsearch index veritabanına, type tabloya ve mapping ise alana denk gelir.

Eğer bir alan analyzed olarak işaretlenmiş ise, o alanda full-text arama yapılabilir.

Eğer bir alan not_analyzed olarak işaretlenmiş ise, o alanda full-text arama yapılamaz. Onun yerine sadece eşittir = araması yapılır.

Arama ve sıralama sadece mapping ile işaretlenmiş alanlar üzerinde yapılır. Aksini denerseniz, "Parse Failure [No mapping found for [author] in order to sort on" hatası alırsınız.

Eğer bir alanı hem arama hem de sıralama için kullanacaksanız, String Sorting and Multifields sayfasını okuyunuz. Bu bir alanı iki ayrı isim altında hem analyzed, hem de not_analyzed olarak tanımlamanıza yardımcı olur.

Eğer sıralama tarafınızdan manuel olarak belirtilmemişse, elasticsearch varsayılan olarak "sort":[{"_score":"desc"}] ekini kullanır. Bu full-text arama yapıyorsanız faydalı olur.

Büyük veya küçük harf ayrımı yapmak istemiyorsanız, match ve multi_match sorgularına bakabilirsiniz.

Eğer birden fazla alanda birden fazla arama kelimesi kullanacaksanız, multi_match ile birlikte "type": "most_fields" özelliğini kullanabilirsiniz.

Karışık bir sorgu yazmak isterseniz, Combining Filters veya Bool Query notlarından yararlanabilirsiniz.

Eğer elasticsearch içinde normal veritabanlarındaki AVG, MIN, MAX, SUM, COUNT, GROUP BY gibi fonksiyonları kullanmak isterseniz, Aggregations özelliğini kullanmanız gerekir.

Eğer bir kelimeyi birden fazla alanda içinde arıyorsanız, ve de kelime her iki alan içinde de bulunmuş ise, "type": "most_fields" özelliği o bulunan kayda daha yüksek not verir. Daha fazla bilgi için Most Fields sayfasını okuyabilirsiniz.

Eğer sorgunuzda join kullanıyorsanız, Handling Relationships sayfasını dikkatlice okuyunuz. Özellikle "Application-side Joins", "Denormalizing Your Data" ve "Nested Objects" bölümlerine dikkat ediniz.

Eğer sorgunuzda NULL veya NOT NULL verilerini kullanacaksanız, Dealing with Null Values sayfasında anlatılan missing ve exists özelliklerini kullanmanız gerekecektir.

Eğer sorgunuzda sort işlemi yaparken SearchParseException hatası alırsanız, sort alanına "ignore_unmapped": true bayrağını ekleyebilirsiniz.

Eğer sorgunuzda boost özelliğini kullanıp en gerçekçi sıralamaya ulaşmak isterseniz, Function Score Query sorgusunu, "score_mode": "sum" ve "boost_mode": "replace" özellikleriyle birlikte kullanınız.

Temel kavram

Eğer data ayrıntılı bilge isterseniz Basic Concept sayfasını ziyaret edebilirsiniz.

Cluster (fiziksel ünite)

Cluster (küme), tüm verilerinizi tutan bir veya daha fazla node'den (sunucu) oluşan bir koleksiyondur. Tüm nodelere arama yetenekleri sağlar. Her cluster benzersiz bir adla tanımlanır ve varsayılan olarak "elasticsearch" kullanılır.

Node (fiziksel ünite)

Node (düğüm), kümenizin bir parçası olup, verilerinizi depolayan ve arama özelliklerine katılan tek bir sunucudur. Tıpkı bir küme gibi, bir düğüm varsayılan olarak rastgele (UUID) olan bir adla tanımlanır.

Index (fiziksel olmayan ünite)

Index (dizin), bir belgeler (veri) koleksiyonudur. Bir dizin küçük harflerle adlandırılır. Tek bir kümede, istediğiniz sayıda dizin tanımlayabilirsiniz.

Type (fiziksel olmayan ünite)

Bir type (tür), dizin içindeki bir mantık kategori olup aynı dizin içindeki farklı belge türlerini saklamanıza izin verir.

Document (fiziksel olmayan ünite)

Document (belge), dizin halini alabilen temel bilgi birimidir. Örneğin: tek müşteri, ürün, sipariş vs. Belge JSON formatında ifade edilmiştir. Bir dizin, istediğiniz sayıda belge içerebilir.

Shards (fiziksel ünite) ve Replica (fiziksel ünite)

Bir dizin, tek bir nodenin disk sınırlarını aşan büyük miktarda veri depolayabilir. Bu, yavaş arama operasyonlarına neden olur. Elasticsearch, indeksinizi parçalardan oluşan birden fazla parçaya bölme olanağı sağlar ve bu bölmelere shard denir. Shard önemlidir çünkü:

İçerik hacmini yatay olarak ölçeklendirmenize olanak tanır.

Performansı artırmak için operasyonları paralelleştirerek dağıtmanıza olanak tanır.

Elasticsearch, dizininizin bir veya daha fazla kopyasını çoğaltmalara yapmanıza izin verir ve bunlara replica shard denir. Bu önemli bir şeydir çünkü gerçek hayatta her an hatalar beklenebilir. Örneğin, bir shard veya node ortadan durabilir veya bozulabilir. Replica önemlidir çünkü:

Shard veya node hatalarında yüksek kullanılabilirlik sağlar. Note: Kopyalamanın, kopyalanan orijinal parçayla aynı node'de hiçbir zaman tahsis edilmediğini unutmamak önemlidir.

Aramalar tüm eşlemelerde paralel olarak yürütülebildiğinden, arama hacminizi ve çıktısınızı ölçeklendirmenize olanak tanır.

Varsayılan olarak, Elasticsearch'teki her bir index için 5 ana shard ve 1 replica tahsis edilir. Cluster içinde en az iki node varsa, dizin toplam 5 birincil shard ve 5 replica shard sahip olması anlamına gelir. Bu da indeks için 10 shard anlamına gelir.