Apr. 17th, 2015

scholar_vit: (knot)

Несколько комментаторов предыдущей записи отметили, что из-за грамматических особенностей русского языка формы одного и того же слова попадают в разные категории: Россия, России, Россией подсчитываются отдельно. Полный грамматический анализ — штука сложная. При невнимательности получится как в известном анекдоте про самые частотные глаголы у Михаила Щербаков: "мыть" и "какать". Но есть более простая операция стемминга, она же обрезание, когда у слов отрезают аффиксы. Результат, возможно, более информативен - но для русского языка, увы, менее нагляден.

Пакет SnowballC для R умеет делать обрезание на датском, голландском, английском, финском, французском, немецком, венгерском, итальянском, норвежском, португальском, румынском, русском, испанском, шведском и турецком языках.

Вот программа для расчета облака с обрезанием:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin, stemDocument, language="russian")
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимирович",
                                    "путин",
                                    "мситтел",
                                    "кклеймён",
                                    "клеймён",
                                    "впутин",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очен",
                                    "котор"))

wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот результат:

scholar_vit: (knot)

В NYRB интересная рецензия Джона Лукаша книги Роджера Мурхауза (Союз дьяволов: пакт Гитлера и Сталина, 1939–1941, Basic books, 2014, 382pp. $29.99). Кстати, название книги лучше передает суть продолжавшегося 22 месяца союза, чем традиционное "пакт Риббентропа-Молотова".

Три интересных наблюдения:

  1. Часто говорят, что пакт не выполнил надежд Сталина. Однако не менее важно, что он не выполнил надежд Гитлера. Через девять дней после подписания пакта Гитлер напал на Польшу. Можно предполагать, что он надеялся, что подписание пакта заставит Британию и Францию отказаться от объявления в ответ войны Германии. Как известно, этого не произошло.
  2. В декабре 1941 года министр иностранных дел Великобритании посетил Сталина. Немецкие войска были под Москвой; из Кремля была слышна канонада. Сталин сказал Идену: "Проблема Гитлера в том, что он не знает, когда остановиться". Иден ответил: "А разве кто-нибудь знает?" "Я знаю", — сказал Сталин.
  3. В ноябре 1944 года Черчилль встретился с Де Голлем. Де Голль ругал американцев за то, что те позволили России захватить всю Восточную Европу. "Да, — ответил Черчилль, — сейчас Россия — это голодный волк. Но после еды приходит время переваривания пищи". Интересно, что Черчилль не записал этот диалог в своих мемуарах: он остался только в воспоминаниях Де Голля.

Profile

scholar_vit: (Default)
scholar_vit

January 2019

S M T W T F S
  12345
678 9101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 3rd, 2025 09:57 pm
Powered by Dreamwidth Studios
OSZAR »