Как Google индексирует интернет?

Для того, чтобы суметь проиндексировать такую большую библиотеку, какой является интернет, вам нужно обладать мощнейшими инструментами. Эти инструменты называются «пауками» (от англ. — spider) или поисковыми роботами.

Словарь терминов, определение, что это такое

Какие типы файлов может индексировать Google

Google может сканировать и обрабатывать файлы практически любого формата

К наиболее распространенным из них относятся следующие:

  • Adobe Flash (.swf)
  • Adobe PDF (.pdf)
  • Adobe PostScript (.ps)
  • Autodesk Design Web Format (.dwf)
  • Google Планета Земля (.kml, .kmz)
  • GPS eXchange Format (.gpx)
  • Hancom Hanword (.hwp)
  • HTML (.htm, .html и другие расширения файлов)
  • Microsoft Excel (.xls, .xlsx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Word (.doc, .docx)
  • Презентации OpenOffice (.odp)
  • Таблицы OpenOffice (.ods)
  • Текстовые файлы OpenOffice (.odt)
  • Rich Text Format (.rtf)
  • Масштабируемая векторная графика (.svg)
  • TeX/LaTeX (.tex)
  • Текстовые файлы (.txt, .text и т. д.), в том числе исходный код распространенных языков программирования:
    • Исходный код Basic (.bas)
    • Исходный код C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
    • Исходный код C# (.cs)
    • Исходный код Java (.java)
    • Исходный код Perl (.pl)
    • Исходный код Python (.py)
  • Язык разметки для беспроводных устройств (.wml, .wap)
  • XML (.xml)