На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2003-5-27 на главную / новости от 2003-5-27
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 27 мая 2003 г.

Google может стать впятеро быстрее

Ученые из Стэнфордского университета опубликовали работу о том, как придать поисковой машине Google гигантское ускорение.

Пользователи любят поисковую машину Google за ее быстроту, но команда из Стэнфорда предложила способ сделать ее еще в пять раз быстрее. При таком запасе быстродействия Google можно будет настраивать индивидуально для каждого пользователя. Например, спортивному болельщику по ключевому слову tiger будут выпадать страницы не о крупной азиатской кошке, а об игроке в гольф Тайджере Вудсе.

Сейчас система ранжирования Google использует метод PageRank, изобретение соучредителя компании Ларри Пейджа. Этот алгоритм определяет популярность и релевантность веб-сайтов по тому, как часто на них ссылаются другие сайты. «Вычисление PageRank для миллиарда веб-страниц может занять несколько дней. Сейчас Google ранжирует и разыскивает три миллиарда веб-страниц, и для каждого персонализированного или тематического ранжирования требуются отдельные многодневные расчеты», — говорится в заявлении университета.

Чтобы ускорить работу PageRank, стэнфордские ученые разработали три метода, основанных на линейной алгебре. Эти методы описаны в трех работах, представленных на Двенадцатой ежегодной конференции по World Wide Web в Будапеште (Венгрия).

Первый метод, BlockRank, дает самое значительное — трехкратное — ускорение PageRank. В нем используется сделанное учеными открытие: на большинстве сайтов до 80% ссылок указывают на другие страницы того же сайта, так что каждый сайт похож на толстый блок ссылок. PageRank обрабатывает каждую ссылку отдельно, а более эффективный метод BlockRank рассматривает все эти внутренние ссылки сайта как одно целое и, только покончив с ними, переходит к внешним ссылкам.

Второй метод использует экстраполяцию. Прежде чем сканировать веб, выдвигаются определенные предположения о важности сайта. В процессе сканирования эти предположения либо подтверждаются, либо отбрасываются, так что по мере увеличения числа обработанных ссылок растет и точность оценок. Когда собирается достаточное количество свидетельств, производится экстраполяция — то есть делается догадка о ранге сайта. По сравнению с PageRank, где ранг сайта определяется лишь по окончании обширного обследования веба, метод экстраполяции работает на 50% быстрее.

Третий метод, называемый Adaptive PageRank, опирается на тот факт, что сайты с более низким рангом обычно обсчитываются быстрее, чем сайты с более высоким. Отказавшись от дальнейшей обработки таких быстро обсчитываемых сайтов, можно увеличить быстродействие на величину до 50%.

Хотя у каждого из этих методов свои преимущества, стэнфордская команда уверена, что в сочетании они обеспечат еще лучший результат. «При использовании всех этих методов возможно еще большее ускорение, — говорит один из участников проекта Сепандар Камвар. — Наши предварительные эксперименты показывают, что их комбинация сделает вычисление PageRank впятеро быстрее. Однако нам предстоит решить ряд проблем. Сейчас мы ближе к тематическому PageRank, чем к персонализированному ранжированию».

Пока теории стэнфордцев остаются теориями — не похоже, чтобы они были как-то связаны с самим Google. «Google приветствует любой вклад в дальнейшее изучение методов анализа гиперссылок в вебе», — ответил представитель компании на вопрос CNETAsia о том, рассмотрит ли Google возможность использования предложений ученых. 

 Предыдущие публикации:
2002-11-05   MIT и HP наводят порядок на полках цифровой библиотеки
2002-12-30   Linux «перегуглила» Microsoft
 В продолжение темы:
2003-06-09   В 6000 раз быстрее широкополосного канала?
2003-07-22   Google модернизирует инструмент поиска новостей
Обсуждение и комментарии
rooootty
28 May 2003 10:51 AM
Linux+Apache+Mysql = Goooogle !!!
А хваленый масдай 2003 только для мелких контор в росии и китае годится .. хе-хе-хе
 

Serge Sereda - serge_seredanospam.hotmail.com
28 May 2003 12:01 PM
Если я правильно уразумел суть ускорения индексации сетевых ресурсов, то "бешеная скорость" будет достигаться засчёт самого прозаического отказа от индексации "непопулярных сайтов". В переводе это означает, что широта охвата поисковика Google довольно сильно уменьшится. Читай: не проплатил, тебя гугел не найдёт. Это полностью соотвествует "принцип эмериканский демократия" :-)

Наш, например, сайт никогда не будет "популярным", потому как ни с порнухой ни с чатами, ни с читами, ни с МП3 не связан...

С уважением,

Сергей Середа
Движение "ПОтребитель"
(http://consumer.nm.ru
http://cie.ase.md/~sereda)
 

Out of stock
28 May 2003 12:48 PM
Про что бы речь не велась, то пингвины рулез. Утомили уже.
Кто кстати сказал что гугл на мускуле?

2Сергей - это в одном из вариантов. Думаю всеже что объем базы не уменьшат. Гугл определяет популярность не по количеству заходов ведь (даже с себя). Если ваш сайт посвещен молекулярной биологии и на него ссылается достаточно большое кол-во ресурсов, то он и будет популярным - помоему это логично.
 

Serge Sereda - serge_seredanospam.hotmail.com
28 May 2003 1:07 PM
2Out of stock:

>Если ваш сайт посвещен молекулярной биологии
>и на него ссылается достаточно большое кол-во
>ресурсов, то он и будет популярным - помоему
>это логично.

Тут есть один момент. А если на мой гипотетический сайт вообще нет ссылок (ну, положим, я его вчера открыл)? Это значит, что его проиндексируют только когда кто-то смилостивится и поставит на него ссылку. До того времени мой сайт будет "невидим".
Теперь вернёмся к целям, котороые стоят перед поисковыми серверами. Насколько это понимаю я, главной целью поисковика я вляется максимально быстрое отыскание максимального количества релевантных запросу данных. Про релевантность я даже начинать не буду, хотя сутуация постепено немного улучшается. Максимально быстро, это как раз то, что предлагается для Google. А как быть с тем, что информация, которая доступна в Интернет будет месяцами лежать и не индексироватья поисковиком? Люди будут искать эту информацию, но не найдут. Так что, в перспективе, с таким подходом все поисковики будут находить только www.microsoft.com, www.zdnet.com, www.cnn.com и т.п. ;-)
Я считаю, что гнаться за скоростью, жертвуя качеством не есть правильно. Кстати, по всевозможным аспектам поиска в Сети можно найти очень много даных на www.searchlores.org .

С уважением,

Сергей Середа
Движение "ПОтребитель"
(http://consumer.nm.ru
http://cie.ase.md/~sereda)
 

Out of stock
28 May 2003 9:51 PM
2 Сергей: Не надо демагогий. Естественно, что если Вы открыли сайт вчера и на него нет ни одной ссылки и Вы не поставили поисковым паукам проиндексировать Ваш ресурс - то он никогда не будет найден. А внесете если, да еще для некоторых поисковиков типа альтависты и денег дадите - то сроком от 2 до 8 недель первоначально.
Насчет месяцев без индексации - тоже не верно. Зависит от того, насколько часто меняется информация у Вас - чаще меняется - чаще будет индексироваться. Не думаю что авторы гугла избавятся от страниц, на которых есть жизнь. Видимо все сведется к тому, чтобы в первую очередь нацелить силы на активные сайты.

Информация которая есть в сети и проиндексирована поисковиком будет всегда доступна. Даже если удалена страница. Другой вопрос, что если после долгого периода "сна" страница начала обновлятся, то естественно поисковики будут хранить старый snapshoot пока снова не набредут.

Ябы рекомендовал не искать данные по аспектам поиска на одном сайте (возможно с оттенком претензионности), а _почитать об устройстве поисковиков_ на специализированных сайтах.
 

rooootty
29 May 2003 11:27 AM
2Out of stock
а по твоиму гугль на масдайном скуэле?
я читал статью про то, на каком бд это все вертится
 

RIK
29 May 2003 1:55 PM
rooootty
А каким образом SQL бд в гугле используется? Я думаю, что непосредственно к индексации и поиску она не имеет отношения. А "все это вертится" на специализированном софте.
 

whoops - kulchytskyyyahoo.com
29 May 2003 5:13 PM
2rooootty
Na Google SQL BD _nje_ ispol'zujetsa. Smotrjet' tut:
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.ht m
 

rooootty
30 May 2003 9:07 AM
whoops, так они и расказали тебе, как у них система построена ... хе-хе
 

Out of stock
30 May 2003 12:24 PM
2 rooootty:
Наверно открою тайну, но помимо мускуля и МС сиквела существуют другие БД, выгодно отличающиеся и от того и от другого.
То что используется линукс-кластер еще не значит что там мускуль. Или кроме связки Линукс-мускуль-апач вам больше ничего не известно?

А почему бы им и не рассказать. Это же компания, которая привлекает инвестиции, а инвесторам все интересно.
 

rooootty
30 May 2003 1:09 PM
не раскажут потому, что в этом их ноухау
а инвесторам это нифига не интересно, их бабло интересует
 

Konstantinus
1 Jun 2003 4:40 PM
Я думаю что ничего нового не открыли, а как ищет Google, только ему и известно!...
 

Konstantinus
1 Jun 2003 4:43 PM
Я думаю что ничего нового не открыли, а как ищет Google, только ему и известно!...
 

Konstantinus
1 Jun 2003 4:43 PM
Я думаю что ничего нового не открыли, а как ищет Google, только ему и известно!...
 

 

← апрель 2003 21  22  23  25  26  27  28  29  30 июнь 2003 →
Реклама!
 

 

Место для Вашей рекламы!