Как Google индексирует интернет?
Для того, чтобы суметь проиндексировать такую большую библиотеку, какой является интернет, вам нужно обладать мощнейшими инструментами. Эти инструменты называются «пауками» (от англ. — spider) или поисковыми роботами.
Какие типы файлов может индексировать Google
Google может сканировать и обрабатывать файлы практически любого формата
К наиболее распространенным из них относятся следующие:
- Adobe Flash (.swf)
- Adobe PDF (.pdf)
- Adobe PostScript (.ps)
- Autodesk Design Web Format (.dwf)
- Google Планета Земля (.kml, .kmz)
- GPS eXchange Format (.gpx)
- Hancom Hanword (.hwp)
- HTML (.htm, .html и другие расширения файлов)
- Microsoft Excel (.xls, .xlsx)
- Microsoft PowerPoint (.ppt, .pptx)
- Microsoft Word (.doc, .docx)
- Презентации OpenOffice (.odp)
- Таблицы OpenOffice (.ods)
- Текстовые файлы OpenOffice (.odt)
- Rich Text Format (.rtf)
- Масштабируемая векторная графика (.svg)
- TeX/LaTeX (.tex)
- Текстовые файлы (.txt, .text и т. д.), в том числе исходный код распространенных языков программирования:
- Исходный код Basic (.bas)
- Исходный код C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
- Исходный код C# (.cs)
- Исходный код Java (.java)
- Исходный код Perl (.pl)
- Исходный код Python (.py)
- Язык разметки для беспроводных устройств (.wml, .wap)
- XML (.xml)