За последние несколько лет идея создания национальной казахстанской поисковой системы стала чем-то вроде национальной идеи казнтеров или идеи-фикс для правительственных органов. Все от мала до велика хотят занять нишу, которую пока еще не польностью освоили зарубежные поисковые системы, а местные просто не дотягивают до уровня, при котором ими хоть кто-нибудь бы пользовался. Эта тема неоднократно обсуждалась на различных форумах, в блогах, конференциях и так далее. В этой статье я хочу провести анализ всех идей и слухов связанных с созданием национального поисковика, а также узнать нужен ли он вообще.
Начнем с того, в чем же специфика создания этого поисковика. Специфика в том, что он должен искть по сайтам, находящимся в доменной зоне .kz, а также использующим казахский язык, но не находящимся в зоне .kz. Также нужно чтобы он искал также по сайтам на русском языке (никто не отменял язык межнационального общения), так как им владеют почти все казахстанцы. Реализация подобного проекта - довольно амбициозная задача. Но с ней возможно справится. К примеру поисковая система Яндекс - ищет не только по сайтам в доменной зоне .ru, а по всем сайтам на русском языке.
Но тут стоит учесть один нюанс. Дело в том что руководители Яндекса, а также его сотрудники - специалисты не только в сфере ИТ, но также и в сфере языкознания и филологии. Именно качественный поиск по русскоязычным сайтам, учитывающий сложную морфологию русского языка делает Яндекс лидером поисковых сервисов в России. Google тоже выдает хорошие результаты поиска, но все же сделан и заточен специально для англоязычного поиска. Как же у них обстоит дело с казхским языком? В небольшом исследовании проведенным моим коллегой Алексеем Чубыкиным (http://wblog.kz/2008/01/05/sajty-na-kazaxskom-yazyke.html) он проводил анализ поиска по казахскоязычным сайтам крупнейших поисковых систем Рунета - Гуглом и Яндексом. Как видно из исследования - поисковые системы еще не готовы к полноценному внедрению полностью казахскоязычных сайтов. Для того чтобы урвать свою долю поискового трафика приходится дублировать казахские тексты на русском или английском языках. Это как минимум накладно, а как максимум неэффективно и мало кому нужно. Куда проще не мудрствовать лукаво и создать сайт только на русском языке.
Морфология казахского языка - это еще одно препятствие на пути создания поисковика. Дело в том, что у нас нет таких кадров, которые бы совмещали в себе специалистов математического анализа, филологии, математического моделирования структуры текста и так далее. Подобные кадры куются в Научно исследовательских институтах посявщенных математическим исследованиям структур баз данных, поисковых систем и так далее. Но мало того что их нужно изучать, нужно еще и уметь применять данные знания для их использования в области поисковых сервисов. И если Ларри Пэйдж и Сергей Брин, с самого университета посвящали этому все свое время, то нам нужны точно такие же кадры, со знанием казахского языка. Потому что для того чтобы конкурировать с Гуглом и другими ПС (поисковыми системами), мало знать то что знают они, нужно быть на голову выше. Например Илья Сегалович и Аркадий Волож (руководители Яндекс) занимались вопросами поиска очень глубоко и словосочетания математическое моделирование слофоформ для них не кажется бредом. Или к примеру поисковик Нигма - творение российских студентов является совместной разработкой факультетов МГУ: факультета вычислительной математики и кибернетики и факультета психологии (http://www.searchengines.ru/articles/005913.html). Именно сочетание таких несовместимых казалось бы вещей как психология и математика дает в итоге специалиста готового разрабатывать поисковые системы. У нас даже учебных заведений с таким профилем не имеется.
Нужно понть, что создание поисковика - задача бизнеса, а не государства. Никаким волюнтаристским решением сверху проблемы в интернете никогда не решались и решаться вряд ли будут. Это свободная зона, где мотивацией человека на создание чего - либо может служить лишь прибыль, которую он может получить от этого. А есть ли экономическая выгода в создании поисковой системы. Самая основная проблема создания национальной поисковой системы - её экономическая эффективность. Если ежедневная аудитория Google может достигать нескольких сотен миллионов человек в сутки, у Яндекса - несколько сотен тысяч, то что может противопоставить этому казахстанский поисковик? Проведем небольшой арифметический подсчет: В казахстане проживает около 15 миллионов людей. Из них государственным языком владеет чуть больше половины. Это примерно 8 миллионов человек. Количество людей за пределами Казахстана владеющих казахским языком, преимущественно в Китае, Узбекистане, России, составляет по разным подсчетам составляет от 2 до 4 миллионов человек. Будем оптимистами скжем что 4. Итого 8+4 равно 12 миллионов носителей языка. Подсчет очень грубый. Из них скажем треть имеет доступ в интернет. Это 12/3=4. Четыре миллиона человек - вот аудитория на которую может рассчитывать создатель поисковика. “Почему в рассчете подсчитывались только казхскоязычное население!?” возмутятся многие, “ведь им могут пользоватся и русскоязычные пользователи!”. Полностью согласен, поисковик - он для всех. Но дело в том, что мало кто может конкурировать с Яндексом по качеству поиска по русскоязычным сайтам, даже Гугл.
Итак 4 миллиона - это много или мало? В рамках Казахстана - эта цифра кажется неимоверной. Согласен, но нужно надеятся на лучшее. Четыре миллиона пользователей, это огромная цифра. Но качество этой цифры очень подорительно. Дело в том, что почти каждый из этих 4 миллионов будет знать как минимум еще и русский, язык. Как показывают статистические данные по популярности ресурсов: (http://wblog.kz/2008/02/17/kakie-sajty-poseshhayut-kazaxstancy.html), в казахстанском ТОП 100 по посещаемости только 18 ресурсов из Казахстана. Весь наш трафик уходит за границу, в основном к нашему северному соседу. Знание русского языка и его повальное использование в Казнете сыграло с ним злую шутку - пользователи предпочитают отечественным ресурсам российские, благо для них нет языкового барьера. Но если так и будет продолжаться, очень мы сможем наблюдать картину, когда в Казахстане не останется ни одного своего сервера и хостинга. Зачем покупать его в РК, когда рядом есть РФ, а трафик все равно не идет в РК?
У нас было множество попыток создать поисковики. Даже не знаю хватит ли памяти упомнить всех. Вот некоторые из них: poisk.kz, tabu.kz, ai.kz, kaz.kz, gavgav.su, gavgav.cn и еще неизвестно сколько поисковиков. Обсуждение казахстанских поисковиков можно посмотреть тут: (http://wms.kz/index.php?topic=164.0). Практически никто из них не дает качественной выдачи. Если будете заходить на сайт и увидите что он недоступен - не пугайтесь, многие из этих поисковиков находятся на обычных виртуальных хостингах и поэтому часто в дауне. Есть даже попытка создать KYC - Казахстанский индекс цитирования, от одного из самых нормальных поисковиков Казнета - ai.kz. Но проблема в том, что ресурсов, на которых его можно увидеть - практически нет.
В Казнете как в таковом пока еще совсем нечего искать. Сайтов на казахском - мизер. Если поисковик и будет создан, то искать он будет по сотне - другой сайтов, из которых половина - государственные ресурсы. А как же экономическая эффективность? Откуда берутся у поисковиков деньги? В основном от продажи контекстной рекламы. Они выступаю на этом рынке брокерами. А можно ли продвавать рекламу с гос. сайтов? Нет конечно! А негосударственных сайтов на казахском языке у нас очень мало!
В чем же видется выход из этой ситуации? Выход есть. Нужно создавать сайты на казахском языке! Качественные и популярные. Только тогда, когда возникнет необходимость поиска по огромному количеству сайтов на казахском языке, только тогда нам и потребуется поисковик! ПОисковик безусловно нужен, но для того чтобы он работал. нужно то, что именно он будет искать. Нужен контент, нужны статьи, нужны сайты на казахском языке. Поднимем Казнет вместе!