microsoft
diff --git a/‎tokenizers/CsharpTokenizer/CsharpTokenizer.sln‎
Lines changed: 25 additions & 0 deletions b/‎tokenizers/CsharpTokenizer/CsharpTokenizer.sln‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎tokenizers/CsharpTokenizer/CsharpTokenizer/CsharpTokenizer.csproj‎
Lines changed: 13 additions & 0 deletions b/‎tokenizers/CsharpTokenizer/CsharpTokenizer/CsharpTokenizer.csproj‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎tokenizers/CsharpTokenizer/CsharpTokenizer/Program.cs‎
Lines changed: 86 additions & 0 deletions b/‎tokenizers/CsharpTokenizer/CsharpTokenizer/Program.cs‎
Lines changed: 86 additions & 0 deletions
diff --git a/‎tokenizers/java/pom.xml‎
Lines changed: 40 additions & 0 deletions b/‎tokenizers/java/pom.xml‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎tokenizers/java/src/main/java/javatokenizer/Extractor.java‎
Lines changed: 130 additions & 0 deletions b/‎tokenizers/java/src/main/java/javatokenizer/Extractor.java‎
Lines changed: 130 additions & 0 deletions
diff --git a/‎tokenizers/javascript/.gitignore‎
Lines changed: 73 additions & 0 deletions b/‎tokenizers/javascript/.gitignore‎
Lines changed: 73 additions & 0 deletions
diff --git a/‎tokenizers/javascript/package-lock.json‎
Lines changed: 13 additions & 0 deletions b/‎tokenizers/javascript/package-lock.json‎
Lines changed: 13 additions & 0 deletions
@@ -0,0 +1,25 @@
+
+Microsoft Visual Studio Solution File, Format Version 12.00
+# Visual Studio 15
+VisualStudioVersion = 15.0.28010.2026
+MinimumVisualStudioVersion = 10.0.40219.1
+Project("{FAE04EC0-301F-11D3-BF4B-00C04F79EFBC}") = "CsharpTokenizer", "CsharpTokenizer\CsharpTokenizer.csproj", "{D2EB7C17-FD56-46D2-B700-DF485B36A9CC}"
+EndProject
+Global
+	GlobalSection(SolutionConfigurationPlatforms) = preSolution
+		Debug|Any CPU = Debug|Any CPU
+		Release|Any CPU = Release|Any CPU
+	EndGlobalSection
+	GlobalSection(ProjectConfigurationPlatforms) = postSolution
+		{D2EB7C17-FD56-46D2-B700-DF485B36A9CC}.Debug|Any CPU.ActiveCfg = Debug|Any CPU
+		{D2EB7C17-FD56-46D2-B700-DF485B36A9CC}.Debug|Any CPU.Build.0 = Debug|Any CPU
+		{D2EB7C17-FD56-46D2-B700-DF485B36A9CC}.Release|Any CPU.ActiveCfg = Release|Any CPU
+		{D2EB7C17-FD56-46D2-B700-DF485B36A9CC}.Release|Any CPU.Build.0 = Release|Any CPU
+	EndGlobalSection
+	GlobalSection(SolutionProperties) = preSolution
+		HideSolutionNode = FALSE
+	EndGlobalSection
+	GlobalSection(ExtensibilityGlobals) = postSolution
+		SolutionGuid = {4D42F867-AA8D-43CB-8473-32C34A7C79E2}
+	EndGlobalSection
+EndGlobal
@@ -0,0 +1,13 @@
+<Project Sdk="Microsoft.NET.Sdk">
+
+  <PropertyGroup>
+    <OutputType>Exe</OutputType>
+    <TargetFramework>netcoreapp2.1</TargetFramework>
+  </PropertyGroup>
+
+  <ItemGroup>
+    <PackageReference Include="Microsoft.CodeAnalysis.CSharp" Version="2.9.0" />
+    <PackageReference Include="Newtonsoft.Json" Version="11.0.2" />
+  </ItemGroup>
+
+</Project>
@@ -0,0 +1,86 @@
+using Microsoft.CodeAnalysis;
+using Microsoft.CodeAnalysis.CSharp;
+using Newtonsoft.Json;
+using System;
+using System.Collections.Generic;
+using System.Diagnostics;
+using System.IO;
+using System.IO.Compression;
+using System.Linq;
+using System.Threading.Tasks;
+
+namespace CsharpTokenizer
+{
+    class Program
+    {
+        static void Main(string[] args)
+        {
+            if (args.Length != 3)
+            {
+                Console.WriteLine("Usage <projectsFolder> <outputFolder> true|false");
+                return;
+            }
+            Parallel.ForEach(
+                Directory.EnumerateDirectories(args[0]),
+                d=>ExtractForProjectFolder(d, args[1], bool.Parse(args[2]), args[0])
+            );
+        }
+
+        public static void ExtractForProjectFolder(string projectDir, string outputDir, bool onlyIdentifiers, string baseDir)
+        {
+            var allFiles = Directory.EnumerateFiles(projectDir, "*.cs", SearchOption.AllDirectories);
+
+            var projectDirName = Path.GetFileName(projectDir);
+
+            using (var fileStream = File.Create(Path.Combine(outputDir, projectDirName + ".jsonl.gz")))
+            using (var gzipStream = new GZipStream(fileStream, CompressionMode.Compress, false))
+            using (var textStream = new StreamWriter(gzipStream))
+            {
+                foreach (var fileJson in allFiles.AsParallel().Select(f => GetJsonForFile(f, onlyIdentifiers, baseDir)))
+                {
+                    textStream.WriteLine(fileJson);
+                }
+            }
+        }
+
+        private static string GetJsonForFile(string filepath, bool onlyIdentifiers, string baseDir)
+        {
+            var tokens = GetFileIdentifierTokens(filepath, onlyIdentifiers);
+            Debug.Assert(filepath.StartsWith(baseDir));
+            var relativePath = Path.GetRelativePath(baseDir, filepath);
+            var tokenData = new TokenData()
+            {
+                tokens = tokens.ToArray(),
+                filename = relativePath
+            };
+
+            return JsonConvert.SerializeObject(tokenData);
+        }
+
+        private static IEnumerable<string> GetFileIdentifierTokens(string filepath, bool onlyIdentifiers)
+        {
+            var tokens = GetASTFromFile(filepath).GetRoot().DescendantTokens();
+            if (onlyIdentifiers) {
+                tokens = tokens.Where(t => t.IsKind(SyntaxKind.IdentifierToken));
+            }
+            return tokens.Select(t => t.Text);
+        }
+
+        private static IEnumerable<SyntaxToken> GetFileTokens(string filepath) =>
+           GetASTFromFile(filepath).GetRoot().DescendantTokens();
+
+        private static SyntaxTree GetASTFromFile(string filePath)
+        {
+            using (var rawSource = new StreamReader(filePath))
+            {
+                return CSharpSyntaxTree.ParseText(rawSource.ReadToEnd());
+            }
+        }
+    }
+
+    public struct TokenData
+    {
+        public string filename;
+        public string[] tokens;
+    }
+}
@@ -0,0 +1,40 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <groupId>DPU</groupId>
+    <!-- The name of this project (actually, the name of the artifact, which is the thing that this project produces. A jar in this case.) -->
+    <artifactId>javatokenizer</artifactId>
+    <!-- The version of this project. SNAPSHOT means "we're still working on it" -->
+    <version>1.0-SNAPSHOT</version>
+    
+    <properties>
+        <!-- Tell Maven we want to use Java 8 -->
+        <maven.compiler.source>1.8</maven.compiler.source>
+        <maven.compiler.target>1.8</maven.compiler.target>
+        <!-- Tell Maven to treat all source files as UTF-8 -->
+        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
+    </properties>
+    
+    <dependencies>
+        <!-- Here are all your dependencies. Currently only one. These are automatically downloaded from https://mvnrepository.com/ -->
+        <dependency>
+            <groupId>com.github.javaparser</groupId>
+            <artifactId>javaparser-symbol-solver-core</artifactId>
+            <version>3.6.19</version>
+        </dependency>
+        <!-- JavaParser itself is not a dependency here. It gets included indirectly through java-symbol-solver-core -->
+        <dependency>
+            <groupId>commons-io</groupId>
+            <artifactId>commons-io</artifactId>
+            <version>2.6</version>
+        </dependency>
+        <dependency>
+            <groupId>com.google.code.gson</groupId>
+            <artifactId>gson</artifactId>
+            <version>2.8.5</version>
+        </dependency>
+    </dependencies>
+</project>
@@ -0,0 +1,130 @@
+package javatokenizer;
+
+import org.apache.commons.io.FileUtils;
+import org.apache.commons.io.filefilter.DirectoryFileFilter;
+import org.apache.commons.io.filefilter.TrueFileFilter;
+
+import java.io.FileOutputStream;
+import java.io.FilenameFilter;
+import java.io.File;
+import java.io.OutputStreamWriter;
+import java.io.IOException;
+import java.io.Writer;
+import java.nio.charset.Charset;
+import java.nio.file.Paths;
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.Iterator;
+import java.util.List;
+import java.util.Spliterators;
+import java.util.stream.StreamSupport;
+import java.util.zip.GZIPOutputStream;
+
+import com.github.javaparser.JavaParser;
+import com.github.javaparser.JavaToken;
+import com.github.javaparser.ast.CompilationUnit;
+import com.google.gson.Gson;
+import com.google.gson.GsonBuilder;
+
+
+public class Extractor {
+
+    public static void main(String[] args) throws IOException {
+        if (args.length != 3) {
+            System.err.println("Usage <projectsFolder> <outputFolder> true|false");
+            System.exit(-1);
+        }
+
+        File projectFolder = new File(args[0]);
+        File outputFolder = new File(args[1]);
+
+        String[] projectFolders = projectFolder.list(new FilenameFilter() {
+            @Override
+            public boolean accept(File current, String name) {
+              return new File(current, name).isDirectory();
+            }
+          });
+          Arrays.stream(projectFolders).forEach(f->ExtractForFolder(new File(projectFolder, f),
+                outputFolder, Boolean.parseBoolean(args[2]), projectFolder));
+    }
+
+    public static void ExtractForFolder(File projectFolder, File outputFolder, boolean onlyIdentifiers, File baseFolder) {
+        Iterator<File> allFiles = FileUtils.iterateFiles(projectFolder, new String[] {"java"}, true);
+        try {
+            FileOutputStream output = new FileOutputStream(Paths.get(outputFolder.toPath().toString(),  projectFolder.getName() + ".jsonl.gz").toFile());
+            Gson gson = new GsonBuilder().create();
+
+            try {
+                Writer writer = new OutputStreamWriter(new GZIPOutputStream(output), "UTF-8");
+                Iterable<File> fileIter = ()-> allFiles;
+                StreamSupport.stream(
+                    fileIter.spliterator(), true).map(f-> TokenizeFile(f, onlyIdentifiers, baseFolder))
+                    .map(t->gson.toJson(t)).filter(g->g!=null).sequential().forEach(g->{
+                        try{
+                            writer.write(g);
+                            writer.write('\n');
+                        } catch (IOException ioe) {
+                            // really?
+                            ioe.printStackTrace();
+                        }
+                    });
+                writer.close();
+            } catch(Exception e) {
+                System.out.println("Error for project " + projectFolder + ": " + e);
+                e.printStackTrace();
+            } finally {
+                output.close();
+            }
+        } catch (IOException e) {
+            System.out.println("Error for project " + projectFolder + ": " + e);
+            e.printStackTrace();
+        }
+    }
+
+    public static class SerializableTokens {
+        String filename;
+        List<String> tokens;
+    }
+
+    public static SerializableTokens TokenizeFile(File sourceFile, boolean onlyIdentifiers, File baseDirectory) {
+        CompilationUnit cu;
+        System.out.println("Tokenizing " + sourceFile + "...");
+        try {
+            cu = JavaParser.parse(
+                FileUtils.readFileToString(
+                    sourceFile,
+                    Charset.defaultCharset()));
+            List<String> allTokens = new ArrayList<>();
+            for(JavaToken token : cu.getTokenRange().get()) {
+                JavaToken.Kind tokenKind = JavaToken.Kind.valueOf(token.getKind());
+                if (tokenKind == JavaToken.Kind.SPACE ||
+                    tokenKind == JavaToken.Kind.EOF ||
+                    tokenKind == JavaToken.Kind.WINDOWS_EOL ||
+                    tokenKind == JavaToken.Kind.UNIX_EOL ||
+                    tokenKind == JavaToken.Kind.OLD_MAC_EOL ||
+                    tokenKind == JavaToken.Kind.SINGLE_LINE_COMMENT ||
+                    tokenKind == JavaToken.Kind.ENTER_JAVADOC_COMMENT ||
+                    tokenKind == JavaToken.Kind.JAVADOC_COMMENT ||
+                    tokenKind == JavaToken.Kind.ENTER_MULTILINE_COMMENT ||
+                    tokenKind == JavaToken.Kind.MULTI_LINE_COMMENT ||
+                    tokenKind == JavaToken.Kind.COMMENT_CONTENT) {
+                    continue;
+                }
+                if (!onlyIdentifiers || tokenKind == JavaToken.Kind.IDENTIFIER) {
+                    allTokens.add(token.getText());
+                }
+            }
+
+            SerializableTokens serializableObject = new SerializableTokens();
+            serializableObject.filename = baseDirectory.toURI().relativize(sourceFile.toURI()).toString();
+            serializableObject.tokens = allTokens;
+            return serializableObject;
+        } catch (Exception e) {
+            System.err.println("Failed to parse " + sourceFile);
+            //e.printStackTrace();
+            return null;
+        } catch (StackOverflowError e) {
+            return null;
+        }
+    }
+}
@@ -0,0 +1,73 @@
+# Logs
+logs
+*.log
+npm-debug.log*
+yarn-debug.log*
+yarn-error.log*
+
+# Runtime data
+pids
+*.pid
+*.seed
+*.pid.lock
+
+# Directory for instrumented libs generated by jscoverage/JSCover
+lib-cov
+
+# Coverage directory used by tools like istanbul
+coverage
+
+# nyc test coverage
+.nyc_output
+
+# Grunt intermediate storage (https://gruntjs.com/creating-plugins#storing-task-files)
+.grunt
+
+# Bower dependency directory (https://bower.io/)
+bower_components
+
+# node-waf configuration
+.lock-wscript
+
+# Compiled binary addons (https://nodejs.org/api/addons.html)
+build/Release
+
+# Dependency directories
+node_modules/
+jspm_packages/
+
+# TypeScript v1 declaration files
+typings/
+
+# Optional npm cache directory
+.npm
+
+# Optional eslint cache
+.eslintcache
+
+# Optional REPL history
+.node_repl_history
+
+# Output of 'npm pack'
+*.tgz
+
+# Yarn Integrity file
+.yarn-integrity
+
+# dotenv environment variables file
+.env
+
+# parcel-bundler cache (https://parceljs.org/)
+.cache
+
+# next.js build output
+.next
+
+# nuxt.js build output
+.nuxt
+
+# vuepress build output
+.vuepress/dist
+
+# Serverless directories
+.serverless