Сообщения

Сообщения за октябрь, 2016

Кластериризация данных и Unicode в Python

И снова книга Тоби Сегарана "Программируем коллективный разум"... Ну нравится она мне :) Возникло желание разобраться с кластеризацией данных. Вроде все просто. Скопировал из книги код, вставил и запустил. И тут начались пляски с бубном. Как "неожиданно оказалось" код (а он написан на Python-е) изначально предполагал работу только с латиницей, а кириллицу  автор книги в расчёт не принимал. По некоторым причинам я работаю с Python версии 2.7 а версию 3.* (где использование кириллицы не вызывает проблем ) использовать не могу. После долгого гугления решение было найдено. Код нормально работает с кириллическими символами., по крайне мере в Python 2.7. Пытался ещё улучшить результат работы скрипта удалением из текста предлогов и стоп-слов, но увы, это слабо помогло и этот фрагмент кода был удалён. # -*- coding: utf-8 -*- import sys import feedparser import re     def setup_console ( sys_enc = "utf-8" ) : reload ( sys ) try : # для win32