12.8. ТеÑÑиÑование и оÑладка ÑекÑÑового поиÑка #
Ðоведение неÑÑандаÑÑной конÑигÑÑаÑии ÑекÑÑового поиÑка по меÑе ÐµÑ ÑÑÐ»Ð¾Ð¶Ð½ÐµÐ½Ð¸Ñ Ð¼Ð¾Ð¶ÐµÑ ÑÑаÑÑ Ð½ÐµÐ¿Ð¾Ð½ÑÑнÑм. Ð ÑÑом Ñазделе опиÑÐ°Ð½Ñ ÑÑнкÑии, полезнÑе Ð´Ð»Ñ ÑеÑÑиÑÐ¾Ð²Ð°Ð½Ð¸Ñ Ð¾Ð±ÑекÑов ÑекÑÑового поиÑка. ÐÑ Ð¼Ð¾Ð¶ÐµÑе ÑеÑÑиÑоваÑÑ ÐºÐ¾Ð½ÑигÑÑаÑÐ¸Ñ ÐºÐ°Ðº Ñеликом, Ñак и по ÑаÑÑÑм, оÑÐ»Ð°Ð¶Ð¸Ð²Ð°Ñ Ð°Ð½Ð°Ð»Ð¸Ð·Ð°ÑоÑÑ Ð¸ ÑловаÑи по оÑделÑноÑÑи.
12.8.1. ТеÑÑиÑование конÑигÑÑаÑии #
СозданнÑÑ ÐºÐ¾Ð½ÑигÑÑаÑÐ¸Ñ ÑекÑÑового поиÑка можно легко пÑоÑеÑÑиÑоваÑÑ Ñ Ð¿Ð¾Ð¼Ð¾ÑÑÑ ÑÑнкÑии ts_debug.
ts_debug([конÑигÑÑаÑиÑregconfig,]докÑменÑtext, OUTпÑевдонимtext, OUTопиÑаниеtext, OUTÑÑагменÑtext, OUTÑловаÑиregdictionary[], OUTÑловаÑÑregdictionary, OUTлекÑемÑtext[]) returns setof record
ts_debug вÑÐ²Ð¾Ð´Ð¸Ñ Ð¸Ð½ÑоÑмаÑÐ¸Ñ Ð¾Ð±Ð¾ вÑеÑ
ÑÑагменÑаÑ
данного докÑменÑа, коÑоÑÑе бÑли вÑÐ´Ð°Ð½Ñ Ð°Ð½Ð°Ð»Ð¸Ð·Ð°ÑоÑом и обÑабоÑÐ°Ð½Ñ Ð½Ð°ÑÑÑоеннÑми ÑловаÑÑми. Ðна иÑполÑзÑÐµÑ ÐºÐ¾Ð½ÑигÑÑаÑиÑ, ÑказаннÑÑ Ð² аÑгÑменÑе config, или default_text_search_config, еÑли ÑÑÐ¾Ñ Ð°ÑгÑÐ¼ÐµÐ½Ñ Ð¾Ð¿ÑÑен.
ts_debug возвÑаÑÐ°ÐµÑ Ð¿Ð¾ одной ÑÑÑоке Ð´Ð»Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ ÑÑагменÑа, найденного в ÑекÑÑе анализаÑоÑом. ÐÑа ÑÑÑока ÑодеÑÐ¶Ð¸Ñ ÑледÑÑÑие ÑÑолбÑÑ:
Ñинонимtextâ кÑаÑкое Ð¸Ð¼Ñ Ñипа ÑÑагменÑаопиÑаниеtextâ опиÑание Ñипа ÑÑагменÑаÑÑагменÑtextâ ÑекÑÑ ÑÑагменÑаÑловаÑиregdictionary[]â ÑловаÑи, назнаÑеннÑе в конÑигÑÑаÑии Ð´Ð»Ñ ÑÑагменÑов Ñакого ÑипаÑловаÑÑregdictionaryâ ÑловаÑÑ, ÑаÑпознавÑий ÑÑÐ¾Ñ ÑÑагменÑ, илиNULL, еÑли Ð¿Ð¾Ð´Ñ Ð¾Ð´ÑÑего ÑловаÑÑ Ð½Ðµ наÑлоÑÑлекÑемÑtext[]â лекÑемÑ, вÑданнÑе ÑловаÑÑм, ÑаÑпознавÑим ÑÑагменÑ, илиNULL, еÑли Ð¿Ð¾Ð´Ñ Ð¾Ð´ÑÑий ÑловаÑÑ Ð½Ðµ наÑÑлÑÑ; Ð¼Ð¾Ð¶ÐµÑ Ð±ÑÑÑ Ñакже пÑÑÑÑм маÑÑивом ({}), еÑли ÑÑÐ°Ð³Ð¼ÐµÐ½Ñ ÑаÑпознан как ÑÑоп-Ñлово
ÐÑоÑÑой пÑимеÑ:
SELECT * FROM ts_debug('english', 'a fat cat sat on a mat - it ate a fat rats');
alias | description | token | dictionaries | dictionary | lexemes
-----------+-----------------+-------+----------------+--------------+---------
asciiword | Word, all ASCII | a | {english_stem} | english_stem | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | fat | {english_stem} | english_stem | {fat}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | cat | {english_stem} | english_stem | {cat}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | sat | {english_stem} | english_stem | {sat}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | on | {english_stem} | english_stem | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | a | {english_stem} | english_stem | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | mat | {english_stem} | english_stem | {mat}
blank | Space symbols | | {} | |
blank | Space symbols | - | {} | |
asciiword | Word, all ASCII | it | {english_stem} | english_stem | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | ate | {english_stem} | english_stem | {ate}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | a | {english_stem} | english_stem | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | fat | {english_stem} | english_stem | {fat}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | rats | {english_stem} | english_stem | {rat}
ÐÐ»Ñ Ð±Ð¾Ð»ÐµÐµ полной демонÑÑÑаÑии Ð¼Ñ ÑнаÑала Ñоздадим конÑигÑÑаÑÐ¸Ñ public.english и ÑловаÑÑ Ispell Ð´Ð»Ñ Ð°Ð½Ð³Ð»Ð¸Ð¹Ñкого ÑзÑка:
CREATE TEXT SEARCH CONFIGURATION public.english ( COPY = pg_catalog.english );
CREATE TEXT SEARCH DICTIONARY english_ispell (
TEMPLATE = ispell,
DictFile = english,
AffFile = english,
StopWords = english
);
ALTER TEXT SEARCH CONFIGURATION public.english
ALTER MAPPING FOR asciiword WITH english_ispell, english_stem;SELECT * FROM ts_debug('public.english', 'The Brightest supernovaes');
alias | description | token | dictionaries | dictionary | lexemes
-----------+-----------------+-------------+-------------------------------+----------------+-------------
asciiword | Word, all ASCII | The | {english_ispell,english_stem} | english_ispell | {}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | Brightest | {english_ispell,english_stem} | english_ispell | {bright}
blank | Space symbols | | {} | |
asciiword | Word, all ASCII | supernovaes | {english_ispell,english_stem} | english_stem | {supernova}Ð ÑÑом пÑимеÑе Ñлово Brightest бÑло воÑпÑинÑÑо анализаÑоÑом как ÑÑÐ°Ð³Ð¼ÐµÐ½Ñ ASCII word (Ñиноним asciiword). ÐÐ»Ñ ÑÑого Ñипа ÑÑагменÑов ÑпиÑок ÑловаÑей вклÑÑÐ°ÐµÑ english_ispell и english_stem. Ðанное Ñлово бÑло ÑаÑпознано ÑловаÑÑм english_ispell, коÑоÑÑй ÑвÑл его к bright. Слово supernovaes оказалоÑÑ Ð½ÐµÐ·Ð½Ð°ÐºÐ¾Ð¼Ð¾ ÑловаÑÑ english_ispell, Ñак ÑÑо оно бÑло пеÑедано ÑледÑÑÑÐµÐ¼Ñ ÑловаÑÑ, коÑоÑÑй его благополÑÑно ÑаÑпознал (на Ñамом деле english_stem â ÑÑо ÑÑÐµÐ¼Ð¼ÐµÑ Snowball, коÑоÑÑй ÑаÑпознаÑÑ Ð²ÑÑ, поÑÑÐ¾Ð¼Ñ Ð¾Ð½ вклÑÑÑн в ÑпиÑок ÑловаÑей поÑледним).
Слово The бÑло ÑаÑпознано ÑловаÑÑм english_ispell как ÑÑоп-Ñлово (Ñм. ÐодÑаздел 12.6.1) и поÑÑÐ¾Ð¼Ñ Ð½Ðµ бÑÐ´ÐµÑ Ð¸Ð½Ð´ÐµÐºÑиÑоваÑÑÑÑ. ÐÑÐ¾Ð±ÐµÐ»Ñ Ñоже оÑбÑаÑÑваÑÑÑÑ, Ñак как в данной конÑигÑÑаÑии Ð´Ð»Ñ Ð½Ð¸Ñ
Ð½ÐµÑ ÑловаÑей.
ÐÑ Ð¼Ð¾Ð¶ÐµÑе ÑменÑÑиÑÑ ÑиÑÐ¸Ð½Ñ Ð²Ñвода, Ñвно пеÑеÑиÑлив ÑолÑко Ñе ÑÑолбÑÑ, коÑоÑÑе Ð²Ñ Ñ Ð¾ÑиÑе видеÑÑ:
SELECT alias, token, dictionary, lexemes
FROM ts_debug('public.english', 'The Brightest supernovaes');
alias | token | dictionary | lexemes
-----------+-------------+----------------+-------------
asciiword | The | english_ispell | {}
blank | | |
asciiword | Brightest | english_ispell | {bright}
blank | | |
asciiword | supernovaes | english_stem | {supernova}
12.8.2. ТеÑÑиÑование анализаÑоÑа #
СледÑÑÑие ÑÑнкÑии позволÑÑÑ Ð½ÐµÐ¿Ð¾ÑÑедÑÑвенно пÑоÑеÑÑиÑоваÑÑ Ð°Ð½Ð°Ð»Ð¸Ð·Ð°ÑÐ¾Ñ ÑекÑÑового поиÑка.
ts_parse(имÑ_анализаÑоÑаtext,докÑменÑtext, OUTкод_ÑÑагменÑаinteger, OUTÑÑагменÑtext) returnssetof recordts_parse(oid_анализаÑоÑаoid,докÑменÑtext, OUTкод_ÑÑагменÑаinteger, OUTÑÑагменÑtext) returnssetof record
ts_parse ÑазбиÑÐ°ÐµÑ Ð´Ð°Ð½Ð½Ñй докÑÐ¼ÐµÐ½Ñ Ð¸ возвÑаÑÐ°ÐµÑ Ð½Ð°Ð±Ð¾Ñ Ð·Ð°Ð¿Ð¸Ñей, по одной Ð´Ð»Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ извлеÑÑнного ÑÑагменÑа. ÐÐ°Ð¶Ð´Ð°Ñ Ð·Ð°Ð¿Ð¸ÑÑ ÑодеÑÐ¶Ð¸Ñ ÐºÐ¾Ð´_ÑÑагменÑа, код назнаÑенного Ñипа ÑÑагменÑа, и ÑÑагменÑ, ÑобÑÑвенно ÑекÑÑ ÑÑагменÑа. ÐапÑимеÑ:
SELECT * FROM ts_parse('default', '123 - a number');
tokid | token
-------+--------
22 | 123
12 |
12 | -
1 | a
12 |
1 | number
ts_token_type(имÑ_анализаÑоÑаtext, OUTкод_ÑÑагменÑаinteger, OUTпÑевдонимtext, OUTопиÑаниеtext) returnssetof recordts_token_type(oid_анализаÑоÑаoid, OUTкод_ÑÑагменÑаinteger, OUTпÑевдонимtext, OUTопиÑаниеtext) returnssetof record
ts_token_type возвÑаÑÐ°ÐµÑ ÑаблиÑÑ, опиÑÑваÑÑÑÑ Ð²Ñе ÑÐ¸Ð¿Ñ ÑÑагменÑов, коÑоÑÑе Ð¼Ð¾Ð¶ÐµÑ ÑаÑпознаÑÑ Ð°Ð½Ð°Ð»Ð¸Ð·Ð°ÑоÑ. ÐÐ»Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ Ñипа в ÑÑой ÑаблиÑе ÑказÑваеÑÑÑ ÑелоÑиÑленнÑй tokid (иденÑиÑикаÑоÑ), коÑоÑÑй анализаÑÐ¾Ñ Ð¸ÑполÑзÑÐµÑ Ð´Ð»Ñ Ð¿Ð¾Ð¼ÐµÑки ÑÑагменÑа ÑÑого Ñипа, alias (пÑевдоним), Ñ ÐºÐ¾ÑоÑÑм ÑÑÐ¾Ñ Ñип ÑигÑÑиÑÑÐµÑ Ð² командаÑ
конÑигÑÑаÑии, и description (кÑаÑкое опиÑание). ÐапÑимеÑ:
SELECT * FROM ts_token_type('default');
tokid | alias | description
-------+-----------------+------------------------------------------
1 | asciiword | Word, all ASCII
2 | word | Word, all letters
3 | numword | Word, letters and digits
4 | email | Email address
5 | url | URL
6 | host | Host
7 | sfloat | Scientific notation
8 | version | Version number
9 | hword_numpart | Hyphenated word part, letters and digits
10 | hword_part | Hyphenated word part, all letters
11 | hword_asciipart | Hyphenated word part, all ASCII
12 | blank | Space symbols
13 | tag | XML tag
14 | protocol | Protocol head
15 | numhword | Hyphenated word, letters and digits
16 | asciihword | Hyphenated word, all ASCII
17 | hword | Hyphenated word, all letters
18 | url_path | URL path
19 | file | File or path name
20 | float | Decimal notation
21 | int | Signed integer
22 | uint | Unsigned integer
23 | entity | XML entity
12.8.3. ТеÑÑиÑование ÑловаÑÑ #
ÐÐ»Ñ ÑеÑÑиÑÐ¾Ð²Ð°Ð½Ð¸Ñ ÑловаÑÑ Ð¿ÑедназнаÑена ÑÑнкÑÐ¸Ñ ts_lexize.
ts_lexize(ÑловаÑÑregdictionary,ÑÑагменÑtext) returnstext[]
ts_lexize возвÑаÑÐ°ÐµÑ Ð¼Ð°ÑÑив лекÑем, еÑли вÑ
одной ÑÑÐ°Ð³Ð¼ÐµÐ½Ñ Ð¸Ð·Ð²ÐµÑÑен ÑловаÑÑ, либо пÑÑÑой маÑÑив, еÑли ÑÑÐ¾Ñ ÑÑÐ°Ð³Ð¼ÐµÐ½Ñ ÑÑиÑаеÑÑÑ Ð² ÑловаÑе ÑÑоп-Ñловом, либо NULL, еÑли он не бÑл ÑаÑпознан.
ÐÑимеÑÑ:
SELECT ts_lexize('english_stem', 'stars');
ts_lexize
-----------
{star}
SELECT ts_lexize('english_stem', 'a');
ts_lexize
-----------
{}
ÐÑимеÑание
ФÑнкÑÐ¸Ñ ts_lexize пÑÐ¸Ð½Ð¸Ð¼Ð°ÐµÑ Ð¾Ð´Ð¸Ð½Ð¾ÑнÑй ÑÑагменÑ, а не пÑоÑÑо ÑекÑÑ. ÐÐ¾Ñ Ð¿ÑÐ¸Ð¼ÐµÑ Ð²Ð¾Ð·Ð¼Ð¾Ð¶Ð½Ð¾Ð³Ð¾ заблÑждениÑ:
SELECT ts_lexize('thesaurus_astro', 'supernovae stars') is null;
?column?
----------
t
ХоÑÑ ÑÑаза supernovae stars еÑÑÑ Ð² ÑезаÑÑÑÑе thesaurus_astro, ts_lexize не ÑабоÑаеÑ, Ñак как она не ÑазбиÑÐ°ÐµÑ Ð²Ñ
одной ÑекÑÑ, а воÑпÑÐ¸Ð½Ð¸Ð¼Ð°ÐµÑ ÐµÐ³Ð¾ как один ÑÑагменÑ. ÐоÑÑÐ¾Ð¼Ñ Ð´Ð»Ñ Ð¿ÑовеÑки ÑезаÑÑÑÑов ÑледÑÐµÑ Ð¸ÑполÑзоваÑÑ ÑÑнкÑии plainto_tsquery и to_tsvector, напÑимеÑ:
SELECT plainto_tsquery('supernovae stars');
plainto_tsquery
-----------------
'sn'