Это — старая версия документа!


Все о Google

Поисковая система Google. История и общая информация.

История

В 1998 году два студента Стэндфордского университета Сергей Брин и Ларри Пэйдж,придумали технологию PageRank, которая уже получила признание. PageRank используемая в Google в основном основана на link popularity. Т.е. при вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц. Сейчас link popularity используется во всех основных поисковых системах мира (в той или иной степени). Кстати, в русскоязычных поисковых системах также используется этот параметр, например, в Яндекс, этот параметр называется индекс цитирования.

Google добился успеха благодаря этой технологии. Его траффик устойчиво увеличивается за последние 2 года. В июне 2000 г., такой Интернет-гигант, как Yahoo!, выбрал Google, как дополнительного поставщика результатов, вместо Inktomi. Google недавно начал использовать дополнительно результаты от Open Directory Project, эта программа носит название AdWords.

Название поисковой системы Google было образовано в результате игры букв в слове «googol». Этим компания хочет подчеркнуть их намерение индексировать и обрабатывать большие объемы информации. Размер: По заявлению Google, на данный момент их база данных насчитывает более 1,346,966,000 проиндексированных страниц.

Контактная информация

2400 Bayshore Parkway
Mountain View CA 94043
Tel #: (650) 330-0100
Fax: (650) 618-1499

Международная поддержка

Вы можете искать в Google на 10 различных языках. Вы также можете настроить интерфейс на нужный вам язык. Например, если вы ищите немецкий сайт, то вы можете вводить запрос на немецком языке, и все вспомогательные надписи интерфейса будут на немецком языке. Отличительные особенности: Очень удобной функцией является «cache». Благодаря этой функции пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).

С помощью Google можно найти страницы, которые не содержаться в его базе данных. Это возможно потому что поисковый паук индексирует текст ссылок со страниц. Результаты поиска с помощью Google беруться из следующих источников:

Google's index (собственная БД) Open Directory Project (каталог ODP) RealNames

Большая часть результатов берется из собственной базы данных Google и ранжируется в соответсвии с их алгоритмом. Однако у пользователей также имеется возможность просматривать результаты от ODP.

Также когда вы ищете по ключевому слову, то наверху будет указана категория, из которой взята данная ссылка. Если же ссылка взята из RealNames, то она помечается «RN». Google на вашем сайте Есть много различных способов размещения поисковой формы Google на вашем сайте. Более подробно на эту тему вы можете прочитать здесь

Технология поиска Google

Google использует link populariry как наиболее весомый фактор в определении релевантности страницы. В результате большим и популярным сайтам проще попасть на высокие позиции в результатах поиска. Это также защищает Google от спама. Паук (поисковый робот) Google использует user agent: Googlebot Информация из лог файлов:

Если вы веб мастер и используете программное обеспечение для обработки лог файлов, вы можете обнаружить обращения паука Google к вашим страницам по записям включающим usrer agent: » Googlebot». Если у вас нет специального програмного обеспечения и вы просматриваете лог файлы в Блокноте (NotePad), вам потребуются IP адреса поискового робота Google. IP адреса Googlebot вы можете посмотреть здесь. Глубина индексации:

Google – одна из немногих поисковых систем, которая глубоко индексирует ваш сайт. (Т.е. он старается «пройтись» по всем ссылкам вашего сайта)

Когда регистрируете сайт в Google, постарайтесь зарегистрировать страницу, которая будет связана ссылками со всеми страницами вашего сайта. Благодаря этому, у вас будет больше шансов на то, что паук проиндексирует весь сайт. Google полагает, что следующие факторы будут наиболее весомыми при ранжировании страниц: Link popularity (индекс цитирования) Keyword proximity and density (плотность и частота ключевых слов) Keywords in the link text (ключевые слова в ссылках) Emphasized text (выделенный текст) Как Google составляет описание (резюме) станицы при выдаче на поисковый запрос? При выдаче в списке результатов выдается: сылка на страницу, описание, составленное из слов, которые окружают встретившийся поисковый запрос на странице. Поскольку описание страницы зависит от конретного поискового запроса, то это можно использовать.

Поиск в Google

Настройка выдачи результатов -

Google позволяет вам настроить вид результатов. Это можно сделать в разделе «preferences». Доступны следующие настройки: Interface Language Search Language Number of pages in search results SafeSeach Filtering Безопасный поиск для детей В Google есть опция SafeSearch. Она позволяет осуществлять безопасный поиск для детей. Настроить эту опцию вы можететут или тут Детальная информация о файлах: Google показывает в результатах поиска размер файла. Кажется нет способа увидить дату последнего изменения файла.

Особенности поисковой системы Google

Безусловно, Google является самым лучшим поисковым сервером в мире. В его индексе хранится более 3 миллиардов документов, Google переведен на 26 языков, крупнейшие порталы во всем мире выбрали Google в качестве поискового инструмента (с недавних пор компания Mail.ru стала использовать технологию поиска Google). Новаторская технология PageRank позволила создать качественный поиск и выдавать при запросе более релевантные результаты. Давайте посмотрим на основные отличия Google от других поисковых систем и на его особенности.

1) Google'овский паук называется Googlebot. Через файл robots.txt можно запретить роботу Googlebot индексацию каких-либо из ваших страниц. Аналогично этому файлу на работу паука влияют meta-теги. Помимо стандартных noindex, nofollow, index, follow Google использует еще один тег:

Дело в том, что при выдаче результатов, пользователи имеют возможность просмотреть найденную страницу не на вашем сервере, а в кэше Google. При частом обновлении вашего ресурса такая возможность может вам только навредить. Поставив вышеприведенный тег на нужную страницу, Google не сохранит ее в кэш и ваши посетители всегда будут получать только свежую информацию с вашего сайта.

Для сужения области действия, вы можете разрешить/запретить какое-нибудь действие только пауку Google. Для этого достаточно вместо name=«robots» написать name=«googlebot».

Пример

Робот-паук Googlebot следует и индексирует документы по ссылкам HREF и SRC.

2) Объем проиндексированных документов у Google огромен, и вносить дополнительные изменения в ход индексации паука Google очень сложно. Поэтому нередко Googlebot быстрее сам находит ваш сайт, чем получает информацию из формы AddURL. В любом случае первая индексация вашего сайта произойдет через 2-3 недели. Зато переиндексация идет очень интенсивно, особенно если вы добавите свой сайт в каталог DMOZ. Googlebot просматривает этот каталог практически каждый день.

Но проходит достаточно времени, а ваш сайт до сих пор не проиндексирован. На то могут быть несколько причин.

Динамические страницы (.php и т.д.) Google индексирует не в полном объеме. А при использовании сессий паук не проиндексирует сайт вовсе. Если вы используете дорвеи (doorways). Ваш сайт использует фреймы. Фреймовая структура доставляет неудобство пользователям всех поисковых машин. Хотя Google лучше всех них обрабатывает фреймы, даже он может на них споткнуться. Выхода из сложившейся ситуации только два: или составлять полноценное описание в теге.

Юзаем Google

 
socialnye_servisy/socialnaja_poiskovaja_sistema_gugl.1208160068.txt.gz · Последние изменения: 2008/04/14 12:01 От bushik
 
За исключением случаев, когда указано иное, содержимое этой вики предоставляется на условиях следующей лицензии:CC Attribution-Noncommercial-Share Alike 3.0 Unported
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki