nchibana · October 17, 2019 23:14
diff --git a/process.py b/process.py
 def process():
  windowSizes = [2000]
  words = [x.lower() for x in re.findall(r"[\w\@\#\'\&\]\*\-\/\[\=\;]+",raw_text_clean,flags=re.UNICODE)]
  lines = raw_text_clean.split("\n")
  kwords = []
  klines = []
  for i in range(len(lines)):
    if lines[i][0:3] != "<b>":
      tmpwords = [x.lower() for x in re.findall(r"[\w\@\#\'\&\]\*\-\/\[\=\;]+",lines[i],flags=re.UNICODE)]
      kwords.extend(tmpwords)
      klines.extend([i for j in range(len(tmpwords))])

  for window in windowSizes:
    breaks = [klines[window/10*i] for i in range(int(floor(float(len(klines))/window*10)))]
    breaks[0] = 0
    f = open("word-vectors/"+str(window)+"/"+movie+"-breaks.csv","w")
    f.write(",".join(map(str,breaks)))
    f.close()
    chopper(kwords,labMT,labMTvector,"word-vectors/"+str(window)+"/"+movie+".csv",minSize=window//10)

    f = open("word-vectors/"+str(window)+"/"+movie+".csv","r")
    fullVec = [list(map(int,line.split(","))) for line in f]
    f.close()

    # some movies are blank
    if len(list(fullVec)) > 0:
      if len(list(fullVec[0])) > 9:
        precomputeTimeseries(fullVec,labMT,labMTvector,"timeseries/"+str(window)+"/"+movie+".csv")
    else:
      print("this movie is blank:")
      print(movie.title)
      movie.exclude = True
      movie.excludeReason = "movie blank"
	def process():
	windowSizes = [2000]
	words = [x.lower() for x in re.findall(r"[\w\@\#\'\&\]\*\-\/\[\=\;]+",raw_text_clean,flags=re.UNICODE)]
	lines = raw_text_clean.split("\n")
	kwords = []
	klines = []
	for i in range(len(lines)):
	if lines[i][0:3] != "<b>":
	tmpwords = [x.lower() for x in re.findall(r"[\w\@\#\'\&\]\*\-\/\[\=\;]+",lines[i],flags=re.UNICODE)]
	kwords.extend(tmpwords)
	klines.extend([i for j in range(len(tmpwords))])

	for window in windowSizes:
	breaks = [klines[window/10i] for i in range(int(floor(float(len(klines))/window10)))]
	breaks[0] = 0
	f = open("word-vectors/"+str(window)+"/"+movie+"-breaks.csv","w")
	f.write(",".join(map(str,breaks)))
	f.close()
	chopper(kwords,labMT,labMTvector,"word-vectors/"+str(window)+"/"+movie+".csv",minSize=window//10)

	f = open("word-vectors/"+str(window)+"/"+movie+".csv","r")
	fullVec = [list(map(int,line.split(","))) for line in f]
	f.close()

	# some movies are blank
	if len(list(fullVec)) > 0:
	if len(list(fullVec[0])) > 9:
	precomputeTimeseries(fullVec,labMT,labMTvector,"timeseries/"+str(window)+"/"+movie+".csv")
	else:
	print("this movie is blank:")
	print(movie.title)
	movie.exclude = True
	movie.excludeReason = "movie blank"
No results found